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前 言 


近年 来 ， 随 着 移动 互联 网 、 物 联网 和 云 计算 的 迅猛 发 展 ， 大 数据 理论 和 技术 已 经 
为 学 术 界 、 产 业界 以 及 政府 部 门 关注 的 热点 。 早 在 2009 年 ， 联合 国 就 启动 了 “全 球 脉 动 
计划 ”， 拟 通过 大 数据 技术 推动 落后 地 区 的 发 展 。2015 年 ， 我 国政 府 也 通过 了 《促进 大 数 
据 发 展 行动 纲要 》。2018 年 ,我 国信 息 通信 研究 院 第 三 次 发 布 了 《大 数据 白皮书 》， 集 中 
介绍 了 我 国 大 数据 技术 的 最 新 发 展 态势 和 成 果 ; 在 学 术 界 ,我 国 诸多 高 校 纷纷 建立 了 大 
数据 与 人 工 智能 学 院 ， 设 立 了 数据 科学 与 大 数据 或 大 数据 技术 与 应 用 等 专业 ; 在 产业 界 ， 
IBM、 阿 里 巴巴 、 滴 滴 出 行 等 知名 企业 都 提出 了 各 自 的 大 数据 解决 方案 。 

本 书 详细 地 介绍 了 基于 Hadoop 的 大 数据 处 理 框 架 及 其 组 成 部 分 ， 并 且 讲 述 了 基于 
Spark 和 Storm 的 大 数据 处 理 技术 ,同时 简 述 了 大 数据 处 理 的 其 他 技术 及 其 应 用 。 本 书 符 
合 48 学 时 的 教学 要 求 ， 适 合 大 学 低 年 级 同学 使 用 ,建议 先 学 习 本 系列 前 兽 课 程 的 教材 
《大 数据 导论 》， 后 续 课 程 的 教材 建议 是 《大 数据 分 析 》 等 ， 以 达到 系统 性 学 习 大 数据 知 
识 的 目的 。 本 书 加 入 了 大 量 的 图 文 、 视 频 资源 ,扫描 二 维 码 可 以 观看 。 

另外 ,为 了 尊重 外 来 词汇 的 原创 性 同时 又 兼顾 中 国 读者 的 阅读 习惯 ， 本 书 涉及 英文 
专业 术语 的 地 方 尽量 以 英文 形式 出 现 ， 并 且 大 多 进行 了 中 文 标注 ， 附 录 还 给 出 了 常用 中 
英文 术语 对 照 表 ， 读 者 可 进行 查询 。 

本 书 共 分 8 章 ， 讲 述 的 内 容 包括 表 1 所 列 的 -5 个 部 分 。 

表 1 本 书 内 容 框架 及 建议 学 时 



































部 分 | 部 分 简介 | 章 章 简介 建议 学 时 
大 页 据 处 理 介绍 了 大 数据 的 概念 和 特征 ， 分 析 了 大 数据 的 国内 外 
第 1 部 分 | ”概述 | 第 1 章 | 发 展 情况 ， 并 简介 了 大 数据 全 生命 周期 的 操作 流程 ， 着 4 
重 介绍 了 批 处 理 和 流 式 计算 两 种 大 数据 处 理 方式 
介绍 了 Hadoop 的 发 展 历程 并 阐述 了 Hadoop 的 具 
第 2 章 | 有 可 扩充 的 分 布 式 架构 、 擅 于 处 理 非 结构 化 数据 和 自 8 
动 化 的 并 行 处 理 机 制 等 特性 
基于 Hadoop | 第 3 章 | ， 简 介 了 分 布 式 文件 系统 HDFS 的 相关 概念 、 架 构 组 成 
第 2 部 分 | 的 大 数据 ”” | 及 其 存储 原理 ， 并 详细 地 介绍 了 HDFS 的 主要 工作 流程 
处 理 技术 第 4 音 | 、 对 并 行 计算 框架 MapReduee 的 相关 知识 进行 了 隐 述 ， 8 
介绍 了 分 布 式 并 行 编程 和 MapReduce 的 工作 流程 | 
第 5 间 | 介绍 了 Hive 的 基本 架构 、 工 作 原理 、 数 据 模型 及 其 
查询 语言 HiveQL 
基于 Spark 介绍 了 Spark 的 概念 、 特 点 和 安装 要 点 ,分 析 了 
第 3 部 分 | 的 大 数据 | 第 6 章 | Spark 的 流 数 据 处 理 模型 .并 介绍 了 Spark 在 企业 中 的 6 
处 理 技术 应 用 





























部 分 | 部 分 简介 | 章 章 简 介 建议 学 时 
基于 Storm 介绍 了 Storm 的 概念 ,详细 阐述 了 Storm 各 组 件 的 

第 4 部 分 | 的 大 数据 | 第 7 章 | 基本 概念 和 功能 以 及 各 组 件 之 间 的 关联 ， 分析 了 Storm 3 
处 理 技术 的 特点 ,并 给 出 了 其 在 Linux 系统 上 的 安装 步骤 
大 数据 处 理 围绕 图 数据 库 技术 、Flink 技术 以 及 Kafka 技术 展开 

第 5 部 分 | 的 其 他 技术 | 第 8 章 | 介绍 , 重点 介绍 了 每 种 技术 的 概念 、 功 能 框架 及 应 用 
与 应 用 案例 
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第 了 章 
大 数据 处 理 概论 
全 es 




















知识 要 点 掌握 程度 相关 知识 
大 数据 的 概念 及 特征 掌握 大 数据 的 定义 、 存 储 单位 、“4V” 特 征 
大 数据 的 发 展 了 解 云 计 算 技术 、 商 务 智 能 、 交 互 数据 分 析 
大 数据 的 采集 熟悉 采集 来 源 、 采 集 方法 、 采 集 平 台 
大 数据 的 存储 和 处 理 熟悉 HDFS、HBases MapReduce、Hadoopb 和 云 数据 库 
大 数据 的 分 析 了 解 大 数据 的 5 种 分 析 方法 
大 数据 的 处 理 类 型 掌握 批 处 理 、 流 式 计 算 及 两 者 的 对 比 








随 着 互联 网 和 信息 行业 的 快速 发 展 ， 大 数据 越 来 越 引起 人 们 的 关注 ， 它 正在 积极 地 
影响 着 社会 的 各 个 方面 。 人 们 的 生活 方式 发 生 了 很 大 的 改变 ,通过 简单 、 容 易 操 作 的 移 
动 应 用 和 基于 云端 的 数据 服务 ， 就 能 够 实时 追踪 自己 的 行为 。 以 前 ， 人 们 总 说 知识 就 是 
力量 ,而 如 今 ， 这 些 知 识 就 隐 仿 在 对 大 数据 进行 必要 的 处 理 中 。 























1.1 大 数据 简介 


大 数据 不 等 同 于 数据 量 大 的 数据 ， 它 是 具有 一 定价 值 的 资源 ， 确切 地 说 ， 它 是 可 以 
为 人 类 带 来 巨大 的 社会 效益 和 经 济 效益 的 数据 。 大 数据 类 型 繁多 ,处 理 速度 快 ， 但 价值 
密度 低 ， 很 多 数据 无 法 直接 使 用 甚至 没有 分 析 价值 。 除 了 结构 化 的 数据 ， 更 多 的 数据 是 
半 结 构 化 、 准 结构 化 和 非 结 构 化 的 ， 这 对 大 数据 的 处 理 提出 了 很 高 的 技术 要 求 。 


在 不 二 大 数据 的 概念 


所 谓 大 数据 ， 狭 义 上 可 以 定义 为 : 用 现 有 的 一 般 技术 难以 管理 的 大 量 数据 的 集 
合 。 例 如 ,目前 在 企业 数据 库 中 占据 主流 地 位 的 关系 型 数据 库 无 法 进行 管理 的 、 具 
有 复杂 结构 的 数据 。 广 义 上 ,美国 高 德 纳 (Gartner) 咨询 公司 给 出 了 这 样 的 定义 : 
大 数据 是 需要 新 处 理 模 式 才 能 具有 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 的 海 








量 的 、 高 增长 率 和 多 样 化 的 信息 资产 。 
从 经 济 学 的 角度 看 ， 大 数据 是 经 过 系统 整理 的 储存 在 现实 或 虚拟 空 
* ” 间 中 能 够 提供 一 定价 值 的 信息 资源 。 从 会 计 学 的 层面 看 ， 这 些 信息 资 源 
【 雪 据 存储 单位 是 大 数据 企业 或 大 数据 研究 机 构 通过 合法 交易 取得 的 能 够 拥有 或 控制 的 
有 共生 关系 】 并 可 以 带 来 经 济 利益 的 资产 。 从 海量 的 数据 规模 来 看 ， 根 据 报道 全 球 IP 
流量 达到 1EB 所 需 的 时 间 ， 在 2001 年 是 1 年 , 在 2013 年 仅 为 1 天 , 在 2016 年 仅 为 半天 ， 
在 今天 则 为 数 分 钟 。 全 球 新 产生 的 数据 年 增 较 快 ， 信 息 总 量 大 约 每 两 年 就 要 翻 一 番 。 
大 数据 具有 多 种 形式 ， 从 高 度 结构 化 的 财务 数据 到 文本 文件 、 多 媒体 文件 和 基因 定 
位 图 的 任何 数据 ， 都 可 以 称 为 大 数据 。 由 于 其 自身 的 复杂 性 ， 处 理 大 数据 的 首选 方法 就 
是 在 并 行 计算 的 环境 中 进行 大 规模 并 行 处 理 ， 这 使 得 同时 发 生 的 并 行 摄取 、 并 行 数据 装 
载 和 分 析 成 为 可 能 。 实 际 上 ,大 数据 多 半 是 半 结 构 化 或 非 结 构 化 的 ， 这 需要 不 同 的 技术 
和 工具 来 处 理 。 


a hh 


关于 “大 数据 的 特征 是 什么 ”这 个 问题 ， 学 术 界 比较 认可 大 数据 的 “4V” 说 法 : 数 
据 量 (Volume) 大 、 数 据 类 型 (Variety) 繁 多、 处 理 速 度 (Velocity) 快 和 价值 (Value) 密 
度 低 。 

1. 数据 量 大 

人 类 进入 信息 社会 以 后 ， 数 据 以 自然 方式 增长 ， 其 产生 不 以 人 的 意志 为 转移 。 从 
1986 年 到 2010 年 的 这 20 多 年 时 间 里 ， 全 球 数据 的 数量 增长 了 100 们 ,今后 数据 会 增长 
得 更 快 。 随 着 Web2.0 和 移动 互联 网 的 迅速 发 展 , ;从 们 已 经 可 以 随时 随地 发 布 包括 微 博 和 
微 信 在 内 的 各 种 信息 。 物 联网 也 得 到 了 飞速 发 展 ，、 各 种 传感器 和 摄像 头 已 经 几乎 遍布 了 
工作 和 生活 的 各 个 和 角落， 这些 设备 每 时 每 刻 都 在 自动 产生 大 量 的 数据 。 预 计 到 2022 年 ， 
全 球 将 拥有 35ZB 的 数据 量 ， 与 2010 年 相 比 ,数据 量 将 增长 近 30 倍 。 

2. 数据 类 /型 繁多 


大 数据 的 来 源 众多 ,科学 研究 和 Web 应 用 等 都 在 源源 不 断 地 生成 新 的 数据 。 生 物 大 
数据 、 交 通 大 数据 、 医 疗 大 数据 、 电 信 大 数据 、 电 力 大 数据 和 金融 大 数据 等 都 呈现 出 
“井喷 式 ” 增 长 ， 所 涉及 的 数量 十 分 巨大 . 已 经 从 TB 级 跃升 到 PB 级 ,这 些 数 据 往往 都 
归 类 为 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 。 与 以 往 的 结构 化 数据 为 主导 地 位 的 
局 面 不 同 ， 如 今 的 数据 多 为 非 结 构 化 数据 ,包括 网 络 日 志 、 社 交 网 络 信息 和 地 理 位 置信 
息 等 类 型 ， 这 些 都 对 数据 的 处 理工 作 带 来 了 巨大 的 挑战 。 

传统 的 数据 主要 储存 在 关系 数据 库 中 ,但 是 在 Web 2.0 等 应 用 领域 中 ， 越 来 越 多 的 
数据 开始 被 储存 在 NoSQL 数据 库 中 ， 这 就 必然 要 求 在 集成 的 过 程 中 进行 数据 转换 ， 而 这 
种 转换 的 过 程 是 非常 复杂 和 难以 管理 的 。 传 统 的 联机 分 析 处 理 (On- Line Analytical Pro- 
cessing，OLAP) 和 商务 智能 工具 大 都 面向 结构 化 数据 ， 而 在 大 数据 时 代 ， 有 广阔 市 场 空 
间 的 商业 软件 必 将 是 用 户 交互 友好 的 并 支持 非 结构 化 数据 分 析 的 。 


3. 处 理 速 度 快 
大 数据 的 处 理 速度 非常 快 ， 各 种 数据 基本 上 都 实时 在 线 ， 并 能 够 进行 快速 处 理 、 传 









































送 和 存储 ， 以 便 全 面 反映 对 象 的 当下 情况 。 在 数据 量 非常 庞大 的 情况 下 也 能 够 做 到 数据 
的 实时 处 理 ， 可 以 从 各 种 类 型 的 数据 中 快速 获得 高 价值 的 信息 。 以 谷歌 公司 的 Dremal 为 
例 ， 它 是 一 种 可 扩展 的 、 交 互 式 的 实时 查询 系统 ， 用 于 嵌 套 数据 的 分 析 ， 通 过 结合 多 级 
树 状 执行 过 程 和 列 式 数 据 结 构 ， 它 能 做 到 几 秒 内 完成 对 万 亿 张 表 的 聚合 查询 ， 也 可 以 扩 
展 到 成 千 上 万 的 CPU( 中 央 处 理 器 ) 上 ， 满 足 谷 歌 众多 用 户 操作 PB 级 数据 的 需求 ， 并 且 可 
以 在 2 一 3 秒 内 完成 PB 级 别 数据 的 查询 。 

4. 价值 密度 低 


大 数据 的 价值 密度 相对 较 低 ,需要 做 很 多 的 工作 才能 挖掘 出 有 价值 的 信息 。 随 着 互 
联网 和 物 联网 的 广泛 应 用 ,信息 感知 无 处 不 在 ,在 数据 的 海洋 中 不 断 寻 找 才 能 “ 淘 ” 出 
一 些 有 价值 的 东西 ， 可 谓 “ 沙 里 淘金 "。 以 监控 视频 为 例 ， 一 天 的 记录 可 能 只 有 几 秒 钟 的 
记录 是 有 价值 的 。 但 是 ,为 了 安保 工作 的 顺利 进行 ,不 得 不 投 闪 大 量 的 资金 用 来 购买 各 
种 设备 ， 耗 费 大 量 的 电能 和 存储 空间 以 保存 不 断 更 新 的 监控 数据 。 

有 人 把 数据 比喻 为 蕴藏 能 量 的 煤矿 ， 煤 按照 性 质 有 泥 煤 、 宰 煤 、 烟 煤 、 无 烟煤 和 超 
级 无 烟煤 等 分 类 ， 而 露天 煤矿 、 深 山 煤 矿 的 挖掘 成 本 又 不 一 样 。 与 此 类 似 ， 大 数据 并 不 
在 于 “大 ”， 而 在 于 “有 用 ”， 价 值 含量 、 挖 掘 成 本 比 数 量 更 为 重要 。 对 于 很 多 行业 而 言 ， 
如 何 利 用 好 这 些 大 数据 已 成 为 启 得 竞争 的 关键 。 


大 数据 的 关键 技术 


大 数据 的 关键 技术 一 般 包 括 大 数据 采集 、 预 处 理 、 存储 管理 、 安 全 开发 、 分 析 及 挖 
据 和 展现 与 应 用 等 技术 。 
1. 大 数据 采集 〈 见 图 -1 1) 




















大 数据 知识 服务 模型 


数据 传 感 体系 
网 络 通信 体系 
传 感 适 配 体系 
智能 识别 体系 
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图 1.1 大 数据 采集 








2. 大 数据 预 处 理 


大 数据 预 处 理 主要 完成 对 已 接收 数据 的 抽取 、 清 洗 等 操作 。 

(1) 抽 取 : 因 获 取 的 数据 可 能 具有 多 种 结构 和 类 型 ， 数 据 抽取 过 程 可 以 帮助 将 复杂 的 
数据 转化 为 单一 的 或 者 便于 处 理 的 结构 和 类 型 ， 以 达到 快速 分 析 处 理 的 目的 。 

(2) 清 洗 : 由 于 在 海量 数据 中 ， 数 据 并 不 全 是 有 价值 的 ， 有 些 数 据 并 不 是 所 关心 的 内 
容 ， 而 另 一 些 数据 则 是 完全 错误 的 干扰 项 ， 因 此 要 对 数据 进行 “去 品 "， 从 而 提取 有 效 
数据 。 

3. 大 数据 存储 管理 


大 数据 存储 与 管理 要 用 存储 器 把 采集 到 的 数据 存储 起 来 ， 建 立 相 应 的 数据 库 ， 并 进 
行 管理 和 调用 。 大 数据 存储 与 管理 技术 重点 解决 复杂 结构 化 、 半 结构 化 和 非 结构 化 的 数 
据 管理 与 处 理 ; 主要 解决 大 数据 的 存储 、 表 示 、 处 理 、 可 靠 性 和 有 效 传输 等 几 个 关键 问 
题 ， 开 发 可 靠 的 外 布 式 文件 系统 、 能 效 优化 的 存储 、 计 算 融 入 存储 、 大 数据 的 去 元 余 及 
高 效 低 成 本 的 大 数据 存储 技术 ,突破 分 布 式 非 关系 型 大 数据 管理 与 处 理 技 术 、 异 构 数据 
的 数据 融合 技术 和 数据 组 织 技术 ,研究 大 数据 建 模 技 术 、 大 数据 索引 技术 和 大 数据 移动 、 
备份 、 复 制 等 技术 ,开发 大 数据 可 视 化 技术 和 新 型 数据 库 技术 。 新 型 数据 库 技术 可 将 数 
据 库 分 为 关系 型 数据 库 和 非 关 系 型 数据 库 ?1 其 中 , 非 关 系 型 数据 库 主 要 指 的 是 NoSQL， 
它 又 分 为 键 值 数据 库 、 列 存 数据 库 、 图 存 数据 库 及 文档 数据 库 等 类 型 。 关 系 型 数据 库 包 
含 传统 关系 数据 库 系统 及 NewSQL 数据 库 。 

4. 大 数据 安全 开发 


大 数据 安全 开发 技术 包括 改进 数据 销毁 、 透 明 加 解密 、 分 布 式 访问 控制 和 数据 审计 
等 技术 ， 突 破 隐私 保护 和 推理 控制 、 数 据 真 伪 识 别 和 取证 、 数 据 持 有 完整 性 验证 等 技术 ， 
如 图 1. 2 所 示 。 











图 1.2 大 数据 安全 开发 





5. 大 数据 分 析 及 挖掘 可 
大 数据 分 析 及 挖掘 技术 包括 改进 已 有 数据 挖掘 、 机 器 学 习 技术 、 开 发 数 
据 网 络 挖 据 、 特 异 群 组 挖 据 和 图 挖掘 等 新 型 数据 挖掘 技术 ， 突 破 基于 对 象 的 “加 





数据 连接 、 相 似 性 连接 等 大 数据 融合 技术 和 用 户 兴趣 分 析 、 网 络 行为 分 析 、[ 坟 共振 可 入 化 
情感 语义 分 析 等 面向 领域 的 大 数据 挖掘 技术 。 

数据 挖掘 就 是 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 的 和 随机 的 实际 应 用 数据 中 提 
取 隐 含 在 其 中 的 人 们 事先 不 知道 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 数据 挖 据 涉及 的 
技术 方法 很 多 ， 详 见 表 1- 1。 


分 析 常 用 的 工具 】 























表 1-1 数据 挖掘 涉及 的 技术 方法 





分 类 依据 


类 别 





挖掘 任务 


分 类 或 预测 模型 发 现 、 数 据 总 结 、 聚 类 、 关 联 规则 发 现 ` 疗 列 模式 发 现 、 依 赖 关 
系 或 依赖 模型 发 现 、 异 常 和 趋势 发 现 等 





挖掘 对 象 


关系 数据 库 、 面 向 对 象 数据 库 、 空 间 数 据 库 ~ 时 态 数据 库 、 文 本 数据 源 、 多 媒体 
数据 库 、 异 质数 据 库 、 遗 产 数据 库 及 环球 网 





挖掘 方法 





可 粗 分 为 机 器 学 习 方 法 、 统 计 方法 、 神 经 网 络 方法 和 数据 库 方法 。 机 器 学 习 方 法 
又 可 细 分 为 归纳 学 习 方 法 > 基于 范例 学 习 和 遗传 算法 等 ; 统计 方法 可 细 分 为 回归 分 
析 ( 多 元 回归 、 自 回归 等 和 天 判别 分 析 ( 贝 叶 斯 判别 、 费 软 尔 判别 、 非 参数 判别 等 )、 
聚 类 分 析 ( 系 统 聚 类 、 动 态 聚 类 等 ) 和 探索 性 分 析 4 主 元 分 析 法 、 相 关 分 析 法 等 ) 等 ; 
神经 网 络 方法 细 分 为 前 向 神经 网 络 ( 反 向 传播 算法 等 ) 和 自 组 织 神经 网 络 ( 自 组 织 特 
征 映射 竞争 学 习 等 ) 等 , 数据库 方法 主要 有 多 维 数据 分 析 或 联机 分 析 处 理 
(OLAP) 方法 ， 另 外 还 有 面向 属性 的 归纳 方法 


从 挖掘 任务 和 挖掘 方法 的 角度 ， 数据 挖掘 着 重 从 表 1-2 所 列 的 几 个 方向 突破 。 


表 1-2 数据 挖掘 可 以 突破 的 方向 (从 挖掘 任务 和 挖掘 方法 的 角度 ) 

















着 重 突破 方向 解 析 
可 视 化 分 析 数据 可 视 化 无 论 是 对 普通 用 户 还 是 对 数据 分 析 专 家 来 说 ， 都 是 最 基本 的 功能 。 
数据 图 像 化 可 以 让 数据 “说 话 "， 让 用 户 直观 地 感受 到 结果 
图 像 化 是 将 机 器 语言 翻译 给 人 们 看 ， 而 数据 挖 扎 算法 用 的 是 机 器 语言 ， 分 割 、 
数据 挖掘 算法 集群 、 扳 立 点 分 析 . 还 有 各 种 各 样 的 算法 ， 可 以 精简 数据 、 挖 气 价 值 。 数 据 挖掘 
算法 要 求 能 处 理 大 量 的 数据 ， 同 时 还 应 具有 很 高 的 处 理 速度 
i i 7 挖掘 的 结果 做 出 一 些 前 瞻 
预测 性 分 析 预测 性 分 析 可 以 让 分 析 师 根据 图 像 化 分 析 和 数据 挖掘 的 结果 做 出 前 瞻 性 
判断 
语义 引擎 需要 设计 足够 的 智能 以 致 能 够 从 数据 中 主动 地 提取 信息 。 语言 处 理 技 
请 义 引擎 术 包 括 机 器 翻译 、 情 感 分 析 、 与 情 分 析 、 智 能 输入 和 问答 系统 等 。 数 据 质量 与 管 


理 是 管理 的 最 佳 实践 ， 通 过 标准 化 流程 和 机 器 对 数据 进行 处 理 可 以 确保 获得 一 个 
预 设 质量 的 分 析 结果 

















6. 大 数据 展现 与 应 用 


大 数据 技术 能 够 将 隐藏 于 海量 数据 中 的 信息 和 知识 挖掘 出 来 ,为 人 类 的 社会 经 济 活 
动 提供 依据 ， 从 而 提高 各 个 领域 的 运行 效率 ， 大 大 提高 整个 社会 经 济 的 集约 化 程度 。 


大 数据 的 发 民 


在 2016 年 7 月 Gartner 发 布 的 新 一 年 度 新 兴 技术 成 熟 度 曲线 中 ,往年 备 受 关注 的 大 
数据 及 相关 技术 概念 并 没有 出 现 。 “这些 从 曲线 中 消失 的 技术 依然 关键 ， 只 是 不 再 “新 
兴 ，”， 高 德 纳 咨询 公司 如 此 解释 。 大 数据 随 着 相关 的 基础 设施 、 产 业 应 用 和 理论 体系 的 
发 展 与 完善 ， 越 来 越 被 各 界 所 了 解 ， 而 不 像 前 几 年 那样 仅 是 少数 人 眼中 的 “新 领域 "。 目 
前 ， 大 数据 以 爆炸 式 的 发 展 速度 迅速 蔓延 至 各 行 各 业 。 各 国 抢 抓 战略 布局 ， 不 断 加 大 扶 
持 力 度 ， 全 球 大 数据 市 场 规模 保持 着 高 速 增长 的 态势 。 

作为 大 数据 发 展 的 策 源 地 和 创新 的 引领 者 ， 美 国 最 早 正式 发 布 了 国家 大 数据 战略 。 美 
政府 在 2012 年 3 月 发 布 《 大 数据 研究 和 发 展 倡议 》， 将 大 数据 提升 为 一 种 战略 性 资源 ， 应 
在 科研 、 工 程 、 教 育 与 国家 安全 上 ， 该 倡议 一 出 台 便 得 到 多 个 联邦 部 门 和 机 构 的 响应 。 
后 ,美国 政府 又 在 2016 年 5 月 发 布 《联邦 大 数据 研究 与 开发 战略 计划 》， 围绕 人 类 科学 、 数 
据 共享 和 隐私 安全 等 7 个 关键 领域 部 署 推进 大 数据 建设 的 相关 计划 。 同 期 , 我国 敏锐 地 把 握 
了 大 数据 的 兴起 及 发 展 趋势 。 在 短 短 几 年 内 ,大 数据 迅速 成 为 我 国 社会 各 领域 关注 的 热点 。 
我 国政 府 高 度 重视 大 数据 作为 一 种 前 颇 领 域 的 战略 意义 ， 并 在 近 几 年 加 快 推行 相关 政策 的 制 
定 实施 工作 ， 启 动 未 来 促进 大 数据 发 展 的 数据 强国 计划 。-2015 年 8 月 国务 院 发 布 《 促 进 大 
数据 发 展 行动 纲要 》， 提 出 全 面 推进 我 国 大 数据 的 发 展 和 应 用 ， 加 快 建设 数据 强国 ;同年 10 
月 ， 中 国共 产 党 第 十 八 届 中 央 委 员 会 第 五 次 全 体会 议 将 “大 数据 ” 写 人 会 议 公报 并 升级 为 国 
家 战略 ; 2016 年 3 月 。 国 家 在 出 台 的 “十 三 五 ”规划 纲要 中 再 次 明确 了 大 数据 作为 基础 性 
战略 资源 的 重大 价值 "提出 要 加 快 推动 相关 研发 应 用 及 治理 。2016 年 12 月 , 《大 数据 产 
业 发 展 规划 (2016 一 2020 年 )》 正 式 发 布 ， 全 面 制订 了 未 来 五 年 的 大 数据 产业 发 展 计 划 ， 为 
“十 三 五 ”时 期 大 数据 产业 的 持续 健康 发 展 确立 了 目标 与 路 径 。2018 年 9 月 ,我国 工业 和 信 
息 化 部 为 了 推进 实施 国家 大 数据 战略 ， 务 实 推动 大 数据 技术 、 产 业 创 新 发 展 和 落实 国务 院 关 
于 印发 《促进 大 数据 发 展 行动 纲要 》 的 通知 ， 围 绕 大 数据 关键 技术 产品 研发 、 领域 应 
用 、 产 业 支撑 服务 和 资源 整合 共享 开放 四 个 方面 ， 遗 选 了 一 批 大 数据 产业 发 展 试点 示范 项 
目 。 总 体 来 看 ， 大 数据 进入 了 从 概念 推广 到 应 用 落地 的 关键 转折 期 。 

1, 硬件 性 价 比 提高 与 软件 技术 进步 

随 着 计算 机 性 价 比 的 提高 、 硬 盘 价 格 的 下 降 和 云 计算 的 兴起 以 及 利用 通用 服务 器 对 
大 量 数据 进行 高 速 处 理 技术 Hadoop(Hadoop 是 一 个 分 布 式 系统 基础 架构 , 非 缩写 ， 而 是 
一 个 虚构 的 名 字 ) 的 诞生 ， 大 数据 存储 和 处 理 的 门槛 大 大 降低 。 因 此 ， 过 去 只 有 像 NASA 
这 样 的 研究 机 构 以 及 届 指 可 数 的 几 家 特大 企业 才能 做 到 对 大 量 数据 进行 深入 分 析 ， 现 在 
只 需 很 少 的 时 间 和 成 本 就 可 以 完成 。 无 论 是 存在 多 年 的 还 是 刚刚 创业 的 公司 ,无 论 是 大 
型 企业 还 是 中 小 型 企业 ， 都 可 以 对 大 数据 进行 充分 的 处 理 和 运用 。 

2. 云 计算 开始 普及 

现在 很 多 情况 下 ， 大 数据 的 处 理 环境 并 不 一 定 要 自行 搭建 了 。 例如 ,利用 亚 马 撑 的 
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云 计 算 服 务 EC2(Elastic Compute Cloud， 弹 性 计算 云 ) 和 S3(Simple Storage Service ,简单 
存储 服务 ) 就 可 以 按 用 量 付费 的 方式 来 使 用 计算 机 集群 组 成 的 计算 处 理 环 境 。 实 际 上 ， 许 
多 新 兴 的 信息 技术 创业 公司 如 雨后春笋 般 不 断 出 现 ， 它 们 通过 使 用 亚马逊 的 云 计算 环境 
对 海量 数据 进行 处 理 ， 从 而 催生 出 许多 新 兴 的 服务 ， 这 些 公司 有 网 络 广告 公司 Razorfish、 
提供 预测 航班 起 飞 正 /晚点 服务 的 FlightCaster 和 预测 电子 产品 价格 走势 的 Decide 等 。 
3. 商务 智能 进化 
要 想 深刻 地 认识 大 数据 ， 还 需要 理解 BI(Business Intelligence， 商 务 智 
能 ) 的 潮流 和 大 数据 之 间 的 关系 。 对 企业 内 外 所 存储 的 数据 进行 有 组 织 性 、 国 2 
系统 性 的 集中 、 整理 和 分 析 ， 从 而 获得 对 各 种 商务 决策 有 价值 的 知识 和 观 [BI 的 条 天】 
点 ， 这样 的 技术 及 行为 称 为 BI。 大 数据 作为 BI 的 进化 形式 .充分 利用 后 不 仅 能 够 高 效 地 
预测 未 来 ， 还 能 够 提高 预测 的 准确 率 。 
要 预测 未 来 ， 从 庞大 的 数据 中 发 现 有 价值 的 规则 并 进行 模式 的 数据 挖掘 是 一 种 非常 
有 用 的 工具 。 为 了 让 数据 挖掘 的 执行 更 加 高 效 ， 就 要 使 用 能 够 从 大 量 数据 中 自动 学 习 知 
识 和 有 用 规则 的 机 器 学 习 技 术 。 从 特性 上 来 说 ， 机 器 学 习 对 数据 的 要 求 是 体 量 越 大 越 好 。 
- 直 以 来 ， 机 器 学 习 的 瓶颈 在 于 如 何 存 储 并 高 效 处 理学 习 所 需要 的 大 量 数 据 。 然 而 ， 随 
着 硬盘 单价 的 下 降 和 Hadoop 等 其 他 大 数据 处 理 框 架 的 诞生 ， 这 些 问题 正 逐 步 得 以 解决 ， 
现实 中 对 大 数据 应 用 机 器 学 习 的 实例 正在 不 断 涌现 。 
4， 从 交易 数据 分 析 到 交互 数据 分 柄 
对 比 于 从 像 “ 卖 出 了 一 件 商品 ”一 位 客户 接触 了 合同 ”等 这 样 的 交易 数据 中 得 到 的 
简单 统计 结果 ， 人 们 更 想得到 的 是 “为 什么 卖 出 了 这 件 商 品 ” “为 什么 这 个 客户 离开 了 ” 
这 样 的 信息 ， 而 这 样 的 信息 需要 从 与 客户 之 间 产 生 的 交互 数据 中 来 挖掘 。 以 非 结 构 化 数 
据 为 中 心 的 大 数据 分 析 需 求 不 断 高 涨 ， 也 焉 反映 了 这 种 趋势 。 例 如 ， 像 京东 这 样 的 运营 
电 商 网 站 的 企业 ， 可 以 通过 网 站 的 点 击 量 数据 追踪 用 户 在 网 站 内 的 行为 ， 从 而 对 用 户 从 
访问 网 站 到 最 终 购买 商品 的 行为 路 线 进行 分 析 ， 这 种 点 击 量 数据 正 是 表现 客户 与 公司 网 
站 之 间 相 互 作用 的 一 种 交互 数据 。 对 于 消费 品 公司 来 说 ， 可 以 通过 用 户 的 会 员 数 据 、 购 
买 记 录 和 呼叫 中 心 通话 记录 等 数据 来 寻找 客户 解约 的 原因 。 随 着 “社交 CRM (客户 关系 
管理 )” 呼 声 的 高 涨 ， 越 来 越 多 的 企业 都 开始 利用 微 信 等 社交 媒体 来 提供 客户 支持 服务 
了 ， 上 述 这 些 都 是 表现 企业 与 客户 之 间 的 交互 数据 ， 只 要 推进 对 这 些 交 互 数据 的 分 析 ， 
就 可 以 清晰 地 掌握 客户 离开 的 原因 从 而 做 出 相应 的 补救 措施 。 






































1.2 大 数据 的 操作 流程 


从 20 世纪 开始 ,政府 和 各 行 各 业 的 信息 化 得 到 了 迅速 发 展 ,积累 了 海量 数据 。 这 些 数 

据 大 部 分 都 是 非 结 构 化 的 ， 虽 然 国内 的 各 类 数据 中 心 已 有 足够 的 硬件 设施 来 存储 这 些 数据 ， 

但 是 ， 如 何 让 这 些 海量 数据 产生 最 大 的 商业 价值 ， 是 目前 数据 拥有 者 所 需要 考虑 的 。 此 外 ， 

由 于 数据 的 增长 速度 越 来 越 快 ， 数据 量 越 来 越 大 ,传统 的 数据 库 或 数据 仓库 很 难 存储 、 管 

理 、 查 询 和 分 析 这 些 数据 ， 如 何在 软件 层面 实现 PB (数据 存储 单位 ) 级 乃至 ZB 级 的 海量 数 
据 的 采集 、 存 储 、 处 理 和 分 析 也 是 有 亚 待 数据 拥有 者 思考 和 解决 的 问题 。 
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大 数据 采集 


大 数据 采集 涉及 的 方面 有 采集 来 源 、 方 法 和 平台 ， 并且 采集 到 的 数据 的 质量 直接 决 
定 了 大 数据 预 处 理 的 难度 和 工作 量 。 互 联网 数据 是 数据 采集 的 主要 来 源 之 一 ; 大 数据 通 
常 使 用 网 络 数据 采集 方法 进行 采集 ;大 数据 采集 平台 的 选择 取决 于 数据 本 身 的 结构 和 数 
据 量 ， 采 集 平 台 的 适当 选择 可 以 在 很 大 程度 上 提高 数据 采集 的 效率 和 质量 。 

1. 采集 来 源 

大 数据 的 三 大 主要 来 源 为 商业 数据 、 互 联网 数据 和 物 联 网 数据 〈 见 图 1. 3) 。 





网 上 支付 业务 系统 \ 司 ， 


声 、 








图 1.3 大 数据 的 云 大 主要 来 源 


国 I 国 2 宁 朱 方 尖 
3 研究 大 数据 的 前 提 是 高 效 地 获取 大 数据 。 获 取 大 数据 的 方法 有 很 多 ， 如 制 
回 作 网 络 息 虫 从 网 站 上 采集 数据 、 从 RSS( 简 易 信 息 聚合 ， 是 一 种 消息 来 源 格式 规 
【API 简介 】 范 ) 反 馈 或 者 API(Application Program Interface， 应 用 程序 编程 接口 ) 中 得 到 数据 
以 及 设备 发 送 过 来 的 实测 数据 等 。 为 了 提高 数据 采集 的 效率 ,还 可 以 使 用 公开 可 用 的 数据 源 。 
电信 固 网 DPI 采集 的 数据 大 部 分 是 “ 裸 格 式 ” 的 数据 ， 即 数据 未 经 过 任何 处 理 ， 可 能 包括 
HTTP(Hyper Text Transport Protocol， 超 文本 传输 协议 )、FTP(File Transfer Protocol， 文 件 传 
输 协议 ) 和 SMTP(Simple Mail Transfer Protocol， 简 单 邮件 传输 协议 ) 等 数据 ， 数 据 来 源 于 QQ、 
微 信 和 其 他 社交 应 用 ,或 来 自爱 奇 艺 、 腾 讯 视频 和 优酷 等 视频 提供 商 。 很 多 企业 都 有 自己 的 业 
务 管理 平台 ， 每 天 会 产生 大 量 的 日 志 数据 。 日 志 采集 系统 的 主要 功能 就 是 收集 业务 日 志 数 据 ， 
为 决策 者 提供 在 线 和 离线 分 析 功 能 。 而 网 络 数据 采集 方法 主要 针对 非 结构 化 数据 的 采集 ， 是 指 
通过 网 络 怜 虫 或 网 站 公开 API 等 方式 从 网 站 上 获取 数据 信息 。 该 方法 可 以 将 非 结构 化 数据 从 网 
页 中 抽取 出 来 ， 将 其 存储 为 统一 的 本 地 数据 文件 ， 并 以 结构 化 的 方式 进行 存储 。 


随 着 数据 呈现 爆炸 式 的 增长 采集 工作 面临 的 挑战 日 益 增 大 ， 这 就 要 求 采 集 平 台 具 



























大 数据 处 理 概论 








有 高 可 靠 性 和 高 扩展 性 。 下 面 介绍 几 种 常用 的 大 数据 采集 平台 。 

(1)Apache Flume。 

Flume 是 Apache 旗下 的 一 款 开源 、 高 可 靠 性 、 高 扩展 性 、 容 易 管理 
和 支持 客户 扩展 的 数据 采集 平台 ， 它 使 用 JRuby( 一 个 采用 纯 Java 实现 的 [于 
Ruby 语言 解释 器 ) 来 构建 ， 所 以 依赖 Java 运行 环境 。 它 最 初 是 由 美国 淋 构 与 运行 原理 了 
Cloudera 公司 的 工程 师 设计 ， 用 来 合并 日 志 数据 ， 后 来 逐渐 发 展 用 于 处 理 流 数据 事件 。 
Flume 的 结构 是 一 个 分 布 式 的 管道 ， 可 以 看 作 在 数据 源 和 目的 之 间 有 一 个 Agent (代理 
商 ) 的 网 络 ， 支 持 数据 路 由 ， 每 一 个 Agent 都 由 Source ( 源 ) 、Channel (通道 ) 和 Sink 
(汇集 ) 组 成 ， 如 图 1. 4 所 示 。 
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图 1. 4 pache Flume 结构 图 


(2)Fluentd 。 

Fluentd 是 另 一 个 开源 的 数据 采集 平台 ， 它 是 基于 \CVRuby 语言 开发 的 , 使 用 JSON (JS 
对 象 简 说 ， 一 种 轻 量 级 的 数据 交换 格式 ) 文件 来 统一 日 志 数 据 。Fluentd 的 可 搬 拔 架构 支持 
各 种 不 同 种 类 、 格 式 的 数据 源 和 数据 输出 ， 同 时 也 有 具备 高 可 靠 性 和 很 好 的 扩展 性 。Fluentd 
从 各 方面 看 都 很 像 Flime， 它 的 Input、Buffer (缓冲 区 ) 和 Output 与 Flume 的 Source、 
Channel 和 Sinik 非常 类 似 。 两 者 的 区 别 是 Fluéntd 使 用 C/Ruby 开发 ， 封 装 会 小 一 些 ， 但 同 
时 也 带 来 了 跨 平 台 的 问题 ， 不 能 支持 Windows 平台 。 

(3)Logstash 。 

著名 的 开源 数据 栈 ELK (Elasticsearch，Logstash，Kibana) 中 的 “L” 
就 代表 Logstash。Logstash 是 用 JRuby 开发 的 ,运行 时 依赖 JVM (Java 
Virtual Machine，Java 虚拟 机 ) 。 在 大 部 分 的 情况 下 ELK 作为 一 个 栈 是 被 【EIK 个 名 】 
同时 使 用 的 ， 所 以 当 一 个 数据 系统 使 用 ElasticSearch 时 ，Logstash 是 不 二 之 选 。 

(4)Splunk Forwarder。 

在 商业 化 的 大 数据 平台 产品 中 ，Splunk Forwarder 可 以 很 好 地 支持 数据 采集 、 存 储 、 
分 析 和 可 视 化 这 些 全 生命 周期 的 工作 ， 它 是 一 个 分 布 式 的 机 器 数据 平台 ， 主 要 有 如 下 三 
个 角色 : Search Head 负责 数据 的 搜索 和 处 理 ， 提 供 搜 索 时 的 信息 抽取 ，Indexer 负责 数 
据 的 存储 和 索引 ; Forwarder 负责 数据 的 采集 、 清 洗 、 变 形 ， 并 发 送 给 Indexer。 

Splunk Forwarder 内 置 了 对 Syslog、TCP/UDP 等 协议 和 Spooling 技术 的 支持 , 用 
户 可 以 通过 开发 Input 和 Modular Input (模块 化 输入 ) 的 方式 来 获取 特定 的 数据 。 在 
Splunk 提供 的 软件 仓库 里 有 很 多 成 熟 的 数据 采集 应 用 . 例如 AWS (亚马逊 云 计 算 服 务 )、 






























































DBConnect( 数 据 库 连接 ) 等 ， 可 以 方便 地 从 云 或 者 数据 库 中 获取 数据 进入 Splunk 的 数据 
平台 以 便 进行 数据 分 析 。 

(5)Chukwa。 

Chukwa 是 Apache 旗下 另 一 个 开源 的 数据 收集 平台 ， 是 基于 Hadoop 的 HDFS(Ha- 
doop Distributed File System， 基 于 Hadoop 的 分 布 式 文件 系统 ) 和 MapReduce( 一 种 编程 
模型 ) 构 建 的 ， 具 有 扩展 性 和 可 靠 性 。Chukwa 支持 对 数据 的 展示 、 分 析 和 监视 ， 其 主要 
单元 有 : Agent、Collector( 收 集 器 )、DataSink (数据 接收 器 )、ArchiveBuilder( 存 档 生 成 
器 ) 和 Demux( 多 路 分 配器 ) 等 。 

以 上 介绍 的 5 种 大 数据 采集 平台 几乎 都 可 以 达到 高 可 靠 和 高 扩展 的 性 能 要 求 ， 均 抽象 
出 了 输入 、 缓 冲 和 输出 的 架构 ， 利 用 分 布 式 的 网 络 进行 彼此 连接 ， 其 中 Flume 和 Fluentd 
是 两 个 较 多 被 用 户 使 用 的 产品 。 如 果 使 用 ElasticSearch， 由 于 ELK 有 良好 的 集成 优势 ， 
因此 Logstash 是 最 好 的 选择 。 由 于 项 目 不 活跃 ，Chukwa 的 使 用 度 不 高 。Splunk 作为 一 
个 优秀 的 商业 产品 ， 可 以 支持 数据 采集 、 数 据 存储 、 数 据 分 析 和 数据 可 视 化 全 过 程 工作 ， 
但 它 的 数据 采集 功能 还 存在 一 定 的 限制 ， 有 待 于 优化 。 


si EN 


互联 网 技术 和 移动 设备 的 出 现 导致 数据 性 质 发 生 了 根本 性 变化 。 大 数据 具有 独特 的 性 质 ， 
这 种 特性 使 它 与 传统 的 数据 区 分 开 。 与 传统 数据 相 比 ， 大 数据 不 再 集中 化 、 高 度 结构 化 和 易于 
管理 ， 大 数据 结构 松散 且 量 级 越 来 越 太 。 传 统 数据 与 大 数据 的 特性 对 比 见 表 1- 3。 


表 二 3 传统 数据 与 大 数据 的 特性 对 比 


















































数据 特性 传统 数据 大 数 据 
数据 量 吉 字 节 (GB) 一 太 字 节 《TB) 拍 字 节 (PB) 一 艾 字 节 (EB) 
类 型 集中 式 分 布 式 
结构 结构 化 半 结 构 化 和 非 结 构 化 
模型 稳定 的 数据 模型 平面 模型 

内 部 关系 复杂 的 内 部 关系 简单 的 内 部 关系 








大 数据 时 代 必须 解决 海量 数据 的 高 效 存储 问题 ， 为 此 ,谷歌 公 司 开发 了 分 布 式 文件 系统 
GFS(Google File System)， 通 过 网 络 实现 文件 在 多 台 机 器 上 的 分 布 式 存储 ， 较 好 地 满足 了 大 
规模 数据 存储 的 需求 。HDFS 是 针对 GFS 的 开源 实现 ， 它 是 Hadoop 的 核心 组 成 部 分 之 一 ， 
提供 了 在 廉价 服务 器 集群 中 进行 大 规模 分 布 式 文件 存储 的 能 力 。HDFS 具有 很 好 的 容错 能 
力 ， 并 且 兼 容 廉价 的 硬件 设备 ， 因 此 可 以 以 较 低 的 成 本 利用 现 有 机 器 实现 大 流量 数据 的 读 
写 。 使 用 HDFS 作为 高 可 靠 的 底层 存储 ，HBase 作为 一 个 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 
数据 库 可 以 用 来 存储 非 结构 化 和 半 结 构 化 的 松散 数据 。HBase 的 目标 是 处 理 非常 庞大 的 表 ， 
可 以 通过 水 平 扩展 的 方式 ， 利 用 廉价 计算 机 集群 来 处 理由 超过 10 亿 行 数据 和 数 百 万 列 元 素 
组 成 的 数据 表 。HBase 与 Hadoop 生态 系统 其 他 组 件 的 关系 将 在 后 续 章 节 详细 介绍 。 

研究 机 构 IDC(International Data Corporation) 预 言 ， 大 数据 将 按照 每 年 160% 的 速度 
增加 ， 如 何方 便 、 便 捷 、 低 成 本 地 存储 这 些 海量 数据 ， 是 许多 企业 和 机 构 面临 的 一 个 严 
峻 挑战 ， 云 数据 库 就 是 一 个 非常 好 的 解决 方案 。 目 前 云 服 务 商 正 通过 云 技术 推出 更 多 可 
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在 公有 云 中 托管 数据 库 的 方法 ， 将 用 户 从 烦琐 的 数据 库 硬件 定制 中 解放 出 来 ， 同 时 让 用 
户 拥有 更 强大 的 数据 库 扩 展 能 力 ， 满 足 海 量 数据 的 存储 需求 。 云 数据 库 是 部 署 和 虚拟 化 
在 云 计算 环境 中 的 数据 库 ， 是 在 云 计 算 的 大 背景 下 发 展 起 来 的 一 种 新 兴 的 共享 基础 架构 
的 方法 ， 它 极 大 地 增强 了 数据 库 的 存储 能 力 ， 消 除了 人 员 、 硬 件 、 软 件 的 重复 配置 ， 让 
硬件 、 软 件 升级 变 得 更 加 容易 ， 同 时 也 虚拟 化 了 许多 后 端 功能 。 


大 数据 处 理 


大 数据 时 代 除 了 需要 解决 大 规模 数据 的 高 效 存储 问题 ， 还 需要 解决 大 规模 数据 的 高 
效 处 理 问题 。 分 布 式 并 行 编程 可 以 大 幅 提高 程序 性 能 ,实现 高 效 的 批量 数据 处 理 。 分 布 
式 程 序 运行 在 大 规模 计算 机 集群 上 ， 集 群 中 包括 大 量 廉价 服务 器 ， 可 以 并 行 执行 大 规模 
数据 处 理 任务 ， 从 而 获得 海量 的 计算 能 力 。 

MapReduce 是 一 种 并 行 编程 模型 ， 用 于 大 规模 数据 集 ( 大 于 IFB) 的 并 行 运算 ， 它 将 
复杂 的 、 运 行 于 大 规模 集群 上 的 并 行 计 算 过 程 高 度 抽象 到 两 个 函数 ， Map 和 Reduce。 
MapReduce 极 大 地 方便 了 分 布 式 编程 工作 ， 编 程 人 员 在 不 会 分 布 式 并行 编 程 的 情况 下 ， 
也 可 以 很 容易 将 自己 的 程序 运行 在 分 布 式 系统 上 ,完成 海量 数据 集 的 计算 。 

Hadoop 是 MapReduce 框架 的 一 个 免费 开源 实现 ; 采用 Java 编写 ， 支 持 在 大 量 机 器 
上 分 布 式 处 理 数据 。 除 了 分 布 式 计算 之 外 Hadoop 还 自 带 分 布 式 文件 系统 。 可 以 在 上 面 
运行 多 种 不 同 语言 编写 的 分 布 式 程序 。 Hadoop 在 可 伸缩 性 、 健 壮 性 、 计 算 性 能 和 成 本 上 
具有 无 可 替代 的 优势 ， 事 实 上 已 成 为 当前 互联 网 企业 主流 的 大 数据 分 析 平 台 。 

Hadoop 第 一 代 产 品 使 用 _HDFS， 第 二 代 加 入 了 Eache( 高 速 缓存 ) ， 以 保存 中 间 计 
算 结 果 ， 第 三 代 则 引入 了 Spark 倡导 的 流 技 术 Streaminge Spark 是 一 个 针对 超大 数据 集 
合 的 低 延 迟 集群 分 布 式 计算 系统 ， 比 MapReduce 快 40 倍 左右 。 相 比 于 Hadoop，Spark 
是 其 升级 版 本 ,兼容 Hadoop 的 API(Application Program Interface， 应 用 程序 编程 接 
口 )， 能 够 读 写 Hadeap 的 HBase 顺序 文件 等 。 并 能 将 结果 保存 在 内 存 中 。 


大 数据 分 析 


大 数据 分 析 是 指 对 规模 巨大 的 数据 进行 分 析 ， 其 目的 是 通过 多 个 学 科技 术 的 融合 ， 
实现 数据 的 采集 、 管 理 和 分 析 ， 从 而 发 现 新 的 知识 和 规律 。 大 数据 时 代 的 数据 分 析 ， 首 
先 要 解决 的 是 海量 、 结 构 多 变 、 动 态 实时 的 数据 存储 与 计算 问题 。 这 些 问题 在 大 数据 解 
决 方案 中 至 关 重要 ， 决 定 了 大 数据 分 析 的 最 终结 果 。 

大 数据 分 析 方法 有 以 下 3 种 。 

(1) 预 测 性 分 析 。 

大 数据 分 析 最 普遍 的 应 用 方法 就 是 预测 性 分 析 ， 从 大 数据 中 挖 所 出 有 价值 的 知识 和 
规则 ,通过 科学 建 模 的 手段 呈现 出 结果 ,然后 可 以 将 新 的 数据 带 入 模型 ， 从 而 预测 未 来 
的 情况 。 

(2) 可 视 化 分 析 。 

不 管 是 对 数据 分 析 专家 还 是 普通 用 户 ， 对 大 数据 分 析 最 基本 的 要 求 就 是 可 视 化 分 析 ， 
为 可 视 化 分 析 能 够 直观 地 呈现 大 数据 的 特点 ， 同 时 能 够 非常 容易 被 用 户 所 接受 ， 就 如 同 看 
说 话 一 样 简单 明了 。 可 视 化 可 以 直观 地 展示 数据 ， 让 数据 自己 说 话 ， 让 用 户 看 到 结果 。 
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(3) 数 据 挖掘 算法 。 

可 视 化 分 析 结 果 是 给 用 户 看 的 ， 而 数据 挖掘 算法 是 给 计算 机 看 的 ,通过 让 机 器 学 习 
算法 ， 按 人 的 指令 工作 ， 从 而 呈现 给 用 户 隐 藏 在 数据 之 中 的 有 价值 的 结果 。 大 数据 分 析 
的 理论 核心 就 是 数据 挖掘 算法 ， 算 法 不 仅 要 考虑 数据 的 量 ， 也 要 考虑 处 理 的 速度 。 目 前 
许多 领域 的 研究 都 是 在 分 布 式 计算 框架 上 对 现 有 的 数据 挖掘 理论 加 以 改进 ， 进 行 并 行 化 、 














分 布 式 处 理 。 常 用 的 数据 挖掘 方法 有 分 类 、 预 测 、 关 联 规则 、 聚 类 、 决 策 树 、 描 述 和 可 
视 化 以 及 复杂 数据 类 型 挖掘 (文本 、 网 页 、 图 形 图 像 、 视 频 、 音 频 ) 等 。 





1.3 大 数据 的 处 理 方式 


从 数据 的 处 理 方式 来 说 ， 大 数据 处 理 可 以 分 为 批 处 理 和 流 式 计算 两 种 。 批 处 理 是 指 
数据 产生 后 并 不 立即 予以 处 理 ， 而 是 累积 到 一 定量 后 才 进 行 处 理 ;3 流 式 计算 指 的 是 数据 
在 产生 的 同时 便 进行 处 理 的 计算 模式 。 


ji .x 


2004 年 谷歌 发 表 了 关于 MapReduce 计算 模型 及 框架 的 论文 。MapReduce 是 一 种 典型 
的 批 处 理 计算 模型 ,处理 大 量 数据 的 任务 通常 最 适合 用 批 处 理 操 作 进行 处 理 。 无 论 是 直 
接 从 持久 存储 设备 处 理 数据 集 ， 还 是 先 将 数据 集 载 入 内 存 再 进行 处 理 ， 批 处 理 在 设计 过 
程 中 都 充分 考虑 了 数据 的 量 ， 可 提供 充足 的 处 理 资源 。 因为 批 处 理 在 应 对 大 量 持久 数据 
方面 的 表现 极为 出 色 ， 所 以 经 常 被 用 于 对 历史 数据 进行 分 析 。 本 节 将 重点 介绍 批 处 理 数 
据 集 的 特征 和 批 处 理 框架 Apache Hadoop。 

1. 批 处 理 数 据 集 的 特征 


(1) 有 界 : 批 处 理 数据 集 代 表 数 据 的 有 限 集合 。 

(2) 持 久 # 数据 通常 始终 存储 在 某 种 类 型 的 持久 存储 位 置 中 。 
(3) 大 量 : , 批 处 理 操作 是 处 理 海量 数据 集 的 常用 方法 。 

2. 批 处 理 框架 


Apache Hadoop 是 一 种 专用 于 批 处 理 的 处 理 框架 。Hadoop 是 首 个 在 开源 社区 获得 极 
大 关注 的 大 数据 框架 ， 基 于 谷歌 有 关 海 量 数据 处 理 所 发 表 的 多 篇 论文 与 经 验 的 Hadoop 重 
新 实现 了 相关 算法 和 组 件 堆栈 ,让 大 规模 批 处 理 技 术 变 得 更 加 容易 使 用 。 新 版 Hadoop 主 
要 包含 如 下 3 个 组 件 ， 通 过 配合 使 用 可 用 来 处 理 批 数据 。 

(1)HDFS: HDFS 是 一 种 分 布 式 文件 系统 层 ， 可 对 集群 节点 间 的 存储 和 复制 进行 协 
调 。HDFS 确保 了 无 法 避免 的 节点 发 生 故 障 后 数据 依然 可 用 ,可 将 其 用 作 数 据 来 源 ， 可 
于 存储 中 间 态 的 处 理 结果 ， 并 可 存储 计算 的 最 终结 果 。 

(2)YARN: YARN 是 Yet Another Resource Negotiator( 另 一 个 资源 管理 器 ) 的 缩写 , 
可 充当 Hadoop 堆栈 的 集群 协调 组 件 。 该 组 件 负责 协调 并 管理 底层 资源 和 调度 作业 的 运 
行 。 通 过 充当 集群 资源 的 接口 。YARN 使 用 户 能 在 Hadoop 集群 中 使 用 比 以 往 的 迭代 方 
式 运行 更 多 类 型 的 工作 负载 。 

(3)MapReduce: MapReduce 是 Hadoop 的 原生 批 处 理 引 擎 ， 用 于 大 规模 数据 集 的 并 
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行 运算 。Apache Hadoop 及 其 MapReduce 处 理 引 擎 提供 了 一 套 久 经 考验 的 批 处 理 模 型 ， 
最 适合 处 理 对 时 间 要 求 不 高 的 超大 规模 的 数据 集 。 通 过 非常 低 成 本 的 组 件 即 可 搭建 完整 
功能 的 Hadoop 集群 ， 使 得 这 一 廉价 且 高 效 的 处 理 技术 可 以 灵活 应 用 在 很 多 案例 中 。 与 其 
他 框架 和 引擎 的 兼容 及 集成 能 力 使 得 Hadoop 可 以 成 为 使 用 不 同 技术 的 多 种 工作 负载 处 理 
台 的 底层 基础 ， 但 是 由 于 这 种 方法 严重 依赖 持久 存储 ， 每 个 任务 需要 多 次 执行 读 取 和 
写 人 操作 ， 因 此 速度 相对 较 慢 。 


流 式 计算 


在 很 多 实时 应 用 场景 (如 实时 交易 、 广 告 推送 、 监 控 、 社 交 网 络 分 析 等 ) 中 ， 数 据 
量 大 且 实 时 性 要 求 高 ， 而 且 数据 源 是 实时 不 断 的 。 新 产生 的 数据 必须 立即 处 理 ， 和 否则 后 
续 的 数据 就 会 堆积 起 来 ， 反 应 时 间 通 常 要 求 在 秒 级 以 下 甚至 是 毫秒 级 ， 这 就 需要 一 个 高 
度 可 扩展 的 流 式 计算 方案 。 

1. 流 式 计算 的 概念 

“ 流 式 计 算 ” 并 非 最 近 几 年 才 出 现 的 概念 ， 它 已 经 存在 较 长 的 时 间 ， 虽 然 早期 的 流 式 
计算 可 以 被 看 成 是 当前 流行 的 流 式 计算 的 先导 , 但 其 概念 的 内 涵 以 及 与 当前 流 式 计算 的 
含义 有 着 明显 的 差异 ， 可 以 将 早期 的 流 式 计 算 和 当前 的 流 式 计算 分 别称 为 连续 查询 处 理 
类 和 可 扩展 数据 流 平台 类 计算 系统 。 

2, 流 式 计算 的 特点 

与 批 处 理 计算 系统 相 比 ， 流 式 计 算 系 统 有 其 独特 性 :好 的 流 式 计算 系统 应 该 具备 以 
F 4 个 特点 。 

(1) 记 录 处 理 低 延 迟 。 

对 于 可 扩展 数据 流 平台 类 的 流 式 计 算 系 统 来 说 ， 从 原始 输入 数据 进入 流 式 系统 ， 再 
流 经 各 个 计算 节点 后 到 达 系 统 输出 端 ， 整 个 计算 过 程 所 经 历 的 时 间 越 短 越 好 ， 主 流 的 流 
式 计算 系统 对 于 记录 的 处 理 时 间 应 该 为 毫秒 级 。 虽 然 有 些 流 式 计算 应 用 场景 并 不 需要 如 
此 低 的 计算 延迟 ， 但 很 明显 ， 流 式 系统 计算 延迟 越 低 ， 其 应 用 场景 越 广泛 。 

(2) 极 佳 的 系统 容错 性 。 

目前 大 多 数 的 大 数据 处 理 问 题 ， 一 般 会 采用 大 量 普通 的 服务 器 甚至 PC 来 搭建 数据 存储 
与 计算 环境 ， 尤 其 是 在 物理 服务 器 成 千 上 万 的 情形 下 ， 各 种 类 型 的 故障 经 常 发 生 ， 所 以 应 该 
在 系统 设计 阶段 就 将 其 当 作 一 个 常态 ， 并 在 软件 和 系统 层面 能 够 容忍 故障 的 常 发 性 。 

(3) 极 强 的 系统 扩展 能 力 。 

系统 可 扩展 性 一 般 指 当 系 统计 算 机 负载 过 高 或 存储 计算 资源 不 足以 应 付 手 头 的 任务 
时 ， 能 够 通过 增加 机 器 等 水 平 扩展 方式 便捷 地 解决 这 些 问 题 。 回避 中 回 

(4) 灵 活 强 大 的 应 用 逻辑 表达 能 力 。 下 
对 于 流 式 计算 系统 来 说 ， 应 用 邮 辑 表达 能 力 的 灵活 性 主要 体现 在 两 “上 征 : 站 
个 方面 : 通常 情况 下 ， 流 式 计算 任务 都 会 被 部 署 成 由 多 个 计算 节点 和 流 司 交 这 
经 这 些 节 点 的 数据 流 构成 的 DAG(Directed Acyclic Graph， 有 向 无 环 图 )。(DAG) 技 术 角 该 了 
一 方面 ， 应 用 逻辑 在 描述 其 具体 的 DAG 任务 以 及 为 了 实现 负载 均衡 而 需要 考虑 的 并 发 性 
等 方面 具有 便携 性 ; 另 一 方面 ， 流 式 计 算 系 统 提 供 的 操作 原 语 具 有 多 样 性 ， 传 统 的 连续 









































性 查询 处 理 类 的 流 式 计算 系统 往往 是 类 SQL 的 查询 语言 在 很 多 互联 网 应 用 场景 下 其 表 
达能 力 是 明显 不 足 的 。 

3. 流 式 计算 框架 

Storm 是 一 种 典型 的 流 式 计 算 框 架 ， 它 是 由 BackType 公司 的 Nathan Marz 开发 的 ， 
后 来 BackType 公司 被 Twitter 公司 收购 并 开源 ，Storm 也 随 之 闻名 天 下 。Storm 的 核心 
代码 是 利用 极 具 潜 力 的 函数 式 编程 语言 Clojure 开发 的 ， 这 也 使 得 Storm 格外 引 人 注 意 ， 
它 通常 应 用 于 表 1-4 所 列 的 三 大 领域 。 
表 1-4 Storm 通常 应 用 的 三 大 领域 
领 域 英文 名 说 明 









































Storm 可 以 实时 处 理 新 数据 和 更 新 数据 库 ， 兼 具 容错 
性 和 可 扩展 性 





信息 流 处 理 Stream Processing 





Storm 可 以 进行 连续 查询 并 把 结果 及 时 反馈 给 客户 ， 





连续 计算 Continuous Computation 例如 将 Twin 全 页 热 门 话题 发 送 到 客户 端 
分 布 式 远程 Storm 可 以 并 行 处 理 密集 查询 ， 它 的 拓扑 结构 是 一 个 
和 三河 朋 Distributed RPC 等 待 调用 信息 的 分 布 函 数 ， 当 它 收 到 一 条 调用 信息 时 ， 


会 对 查询 内 容 进行 计算 并 返回 查询 结果 








Spark 及 其 他 的 流 式 计算 框架 将 在 本 书后 续 章 节 介绍 - 
流 式 计 算 和 批 处 理 的 对 比 见 表 1-5。 
表 1-5 流 式 计 算 和 批 处 理 的 对 比 











处 理 方式 侧 重 点 追求 目标 处 理 的 数据 对 象 输出 形式 
流 式 计算 实时 计算 低 延 迟 实时 的 流 式 数 据 流 式 数据 
批 处 理 离线 数据 处 理 高 春 吐 量 静态 的 离线 数据 离线 数据 











总 体 来 讲 ， 两 者 的 区 别 体现 在 以 下 3 个 方面 。 

(1) 系 统 的 输入 包括 两 类 数据 ， 即 实时 的 流 式 数据 和 静态 的 离线 数据 。 其 中 ， 流 式 数据 
是 前 端 设备 实时 发 送 的 识别 数据 、GPS 数据 等 ， 是 通过 消息 中 间 件 实现 的 事件 触发 推送 至 
系统 的 。 离 线 数据 是 应 用 需要 用 到 的 基础 数据 (提前 梳理 好 的 ) 等 关系 数据 库 中 的 数据 。 

(2) 系 统 的 输出 也 包括 流 式 数据 和 离线 数据 。 其中， 流 式 数据 是 写 人 消息 中 间 件 的 指 
定数 据 队 列 缓存 ， 可 以 被 异步 推送 至 其 他 业务 系统 。 离 线 数据 是 计算 结果 ， 直接 通过 接 
口 写 人 业务 系统 的 关系 型 数据 库 。 

(3) 业 务 的 计算 结果 输出 方式 是 通过 两 个 条 件 决 定 的 。 一 是 结果 产生 的 频率 : 若 计算 
结果 产生 的 频率 较 高 ， 则 这 类 结果 以 流 式 数据 的 形式 写 入 消息 中 间 件 (例如 要 实时 监控 该 
客户 所 拥有 的 标签 ， 也 就 是 说 要 以 极 高 的 速度 被 返回 )， 这 是 因为 数据 库 的 吞吐 量 很 可 能 











Se DD 


无 法 适应 高 速 数据 的 存 取 需求 。 二 是 结果 需要 写 和 的 数据 库 表 规模 大 小 : 若 需 要 插入 结 
果 的 数据 表 已 经 很 庞大 ， 则 结果 以 流 式 数据 的 形式 写 入 消息 中 间 件 ， 待 应 用 层 程 序 实现 
相关 队列 数据 定期 或 定量 的 批量 数据 库 转 储 ( 例 如 宽 表 异常 庞大 ， 每 次 查询 数据 库 都 会 有 
很 高 的 延迟 ， 那 么 就 将 结果 信息 暂时 存 人 中 间 件 层 ， 在 晚 些 时 候 再 定时 或 定量 地 进行 批 
量 数据 库 转 储 )， 这 是 因为 大 数据 表 的 读 取 和 写 入 操作 对 毫秒 级 别 的 响应 时 间 仍 然 无 能 为 
力 。 若 对 以 上 两 个 条 件 均 无 要 求 ， 结果 可 以 直接 写 人 数据 库 的 相应 表 中 。 


本 章 小 结 


本 章 首先 介绍 了 大 数据 的 概念 和 特征 ,分析 了 大 数据 在 国内 外 的 发 展 情况 ,重点 讲 
述 了 我 国 大 数据 的 发 展 态势 ， 并 简单 介绍 了 大 数据 全 生命 周期 的 操作 流程 ， 包 括 大 数据 
采集 、 大 数据 存储 、 大 数据 处 理 和 大 数据 分 析 等 环节 ; 然后 着 重 介绍 了 批 处 理 和 流 式 计 
算 两 种 大 数据 处 理 方式 的 概念 及 其 发 展 ; 最 后 从 系统 输入 和 输出 数据 的 类 型 以 及 计算 结 
果 三 个 方面 将 两 者 进行 了 对 比 。 


~ 人 ~ 
全 关键 术语 
3 








(1) 大 数据 (2) 商 务 智能 (3) 大 数据 挖掘 算 法 
(4) 语 义 引擎 (5) 批 处 理 (6) 流 式 计 算 
习 题 
1. 选择 题 
(1) 以 下 ( 7 有 是 大 数据 的 特征 。 
A. 数据 量 大 B. 数据 类 型 单一 
C. 处 理 速度 快 D. 价值 密度 低 
(2) 以 下 ( ) 是 Apache 旗下 的 大 数据 采集 平台 。 
A. Flume B. Splunk Forwarder 
C. Logstash D. A 和 B 
(3)Hadoop 的 组 件 包括 ( ys 
A. HDFS B. YARN 
C. MapReduce D. 以 上 全 部 
(4)Hadoop 是 MapReduce 框架 的 开源 实现 ， 采 用 ( ) 语 言 编写 。 
A. Python B. Java 
C，HTML BC 
(5) 批 处 理 数 据 集 的 特征 不 包括 ( js 
A. 有 界 B. 大 量 
C. 持久 D. 实时 更 新 


(6)Storm 的 应 用 领域 包括 ( Js 








| 


A. 信息 流 处 理 B. 连续 计算 
C. 分 布 式 远程 过 程 调用 D. 以 上 全 部 
2. 判断 题 
(1) 大 数据 就 是 量 比较 大 的 数据 。 
(2) 大 数据 的 特征 包括 数据 量 大 、 数 据 类 型 繁多 、 处 理 速度 快 和 价值 密度 高 。 
(3) 大 数据 处 理 是 大 数据 操作 流程 中 最 后 的 一 个 环节 。 
(4) 大 数据 的 处 理 类 型 仅 包含 批 处 理 和 流 式 计算 两 种 。 


(5) 批 处 理 是 指数 据 产 生 后 并 不 立即 予以 处 理 ， 而 是 累积 到 一 定量 后 进行 处 理 。 


(6) 流 式 计算 侧重 于 实时 计算 ,而 批 处 理 侧 重 于 离线 数据 处 理 。 
3, 简 答 题 

(1) 大 数据 的 “4V” 特 征 是 什么 ? 

(2) 简 述 大 数据 的 操作 流程 。 

(3) 大 数据 的 分 析 方 法 有 哪些 ? 

(4)Hadoop 主要 包括 哪些 组 件 ? 

《5) 一 个 好 的 流 式 计算 系统 应 该 至 少 具备 哪 芷 将 路 ? 

(6) 简 述 批 处 理 和 流 式 计算 的 不 同 点 。21 
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基于 Hadoop 的 大 数据 处 理 


如 ss 























知识 要 点 掌握 程度 相关 知识 
Hadoop 的 优势 熟悉 Hadoop 的 特点 和 优势 
Hadoop 1.0 与 Hadoop 2.0 了 解 Hadoop 1.0 与 Hadoop 2.0 的 架构 对 比 
Hadoop 的 架构 掌握 Hadoop 的 构成 、 基 本 组 件 和 其 他 组 件 
NameNode 和 DataNode 掌握 Node 的 定义 和 王 作 原理 
YARN 熟悉 YARN 的 运行 原理 和 作用 
Hadoop 的 具体 应 用 了 解 Hadoop 在 百度 、 华 为 和 中 国 移动 的 应 用 








Hadoop 是 用 于 管理 大 数据 的 一 个 基本 工具 、 它 满足 了 企业 在 大 型 数据 库 管 理 方面 日 益 
增长 的 需求 。 信 息 技术 的 快速 发 展 ， 使 得 各 种 组 织 能 够 迅速 收集 越 来 越 多 的 数据 ， 这 也 满足 
了 高 效 管理 这 些 数据 的 迫切 需求 。 当 涉及 大 数据 管理 和 应 用 时 ， 可 扩展 能 力 是 企业 最 大 的 需 
求 之 一 。 本 童 将 对 Hadoop 的 架构 、 原 理 及 其 在 不 同行 业 中 的 应 用 进行 介绍 。 


2.1 Hadoop 简介 


Hadoop 是 Apache 基金 会 下 的 一 个 开源 分 布 式 计算 平台 ,以 Hadoop 分 布 式 文件 系 
统 和 分 布 式 计算 框架 MapReduce 为 核心 ， 为 用 户 提供 了 底层 细节 透明 的 分 布 式 基础 设施 。 
HDFS 具有 高 容错 性 和 高 伸缩 性 等 优点 ， 允 许 用 户 将 Hadoop 部 署 在 廉价 的 硬件 上 ， 构建 
分 布 式 系 统 ; 分 布 式 计算 框架 MapReduce 则 人 允许 用 户 在 不 了 解 分 布 式 系统 底层 细节 的 情 
况 下 开发 并 行 、 分 布 的 应 用 程序 ， 充 分 利用 大 规模 的 计算 资源 ， 解决 传统 的 高 性 能 单机 








无 法 解决 的 难题 。 


Hadoop 的 发 展 简 史 


谈 到 Hadoop 的 发 展 简 史 ， 就 不 能 不 提 到 Lucene 和 Nutch。Hadoop 一 【Hadoop 发 展 





开始 是 Nutch 的 一 个 子 项 目 ， 而 Nutch 又 是 Apache Lucene 的 子 项 目 。 这 3 个 编 年 史 】 





项 目 都 是 由 Hadoop 之 父 Doug Cutting 所 创立 的 ， 每 个 项 目 在 逻辑 上 都 是 前 一 个 项 目的 演 
进 。Nutch 项 目 开 始 于 2002 年 ， 是 以 Lucene 为 基础 实现 的 搜索 引擎 应 用 。Lucene 是 一 
个 引擎 开发 工具 包 ， 提 供 了 纯 Java 的 高 性 能 全 文 索引 ， 可 以 方便 地 嵌入 各 种 实际 应 用 中 
实现 全 文 搜索 和 索引 功能 。Lucene 为 Nutch 提供 了 文本 搜索 和 索引 的 API，Nutch 不 仅 
具备 搜索 功能 ， 还 具备 数据 抓 取 的 功能 。 

但 很 快 ，Doug Cutting 就 意识 到 他 们 的 架构 无 法 支持 拥有 数 十 亿 网 页 的 网 络 ， 而 随后 在 
2003 年 和 2004 年 谷歌 先后 推出 了 两 个 支持 搜索 引擎 的 软件 平台 : 一 个 是 GFS， 用 于 存储 不 
同 设备 所 产生 的 海量 数据 ; 另 一 个 是 MapReduce， 运行 在 GFS 上 ， 负 责 分 布 式 大 规模 数据 
的 计算 。 基 于 这 两 个 平台 ，2006 年 年 初 Doug Cutting 从 Nutch 项 目 中 转移 出 来 一 个 独立 的 
模块 ， 称 为 Hadoop。 同 时 ，Doug Cutting 加 盟 了 雅虎 ，Hadoop 正式 成 为 Apache 顶级 项 目 ， 
Hadoop 也 逐渐 被 雅虎 之 外 的 公司 使 用 。2008 年 ，Hadoop 打破 世界 纪录 ， 成 为 最 快 排序 
1TB 数据 的 系统 ， 它 采用 一 个 由 910 个 节点 构成 的 集群 进行 运算 排序 只 用 了 209s, 在 
2009 年 更 是 把 这 一 时 间 缩 短 到 62s。Hadoop 从 此 名 声 大 噪 , 迅速 发 展 成 大 数据 时 代 最 具 影 
响 力 的 开源 分 布 式 平台 ， 并 成 为 事实 上 的 大 数据 处 理 标准 

截至 2016 年 ，Apache Hadoop 版 本 分 为 两 代 : 第 二 代 Hadoop 称 为 Hadoop 1.0; 第 
二 代 Hadoop 称 为 Hadoop 2.0。 第 一 代 Hadoop 包含 三 个 版 本 : 0.20.x、0.21.x、 
0. 22. x。 第 一 代 Hadoop 由 一 个 分 布 式 文件 系统 HDFS 和 一 个 离线 框架 MapReduce 组 成 ; 
第 二 代 Hadoop 则 包含 一 个 支持 NameNode( 主 节点 ) 横 向 扩展 的 HDFS、 一 个 资源 管理 系 
统 YARN 和 一 个 运行 在 YARN 上 的 离线 计算 框架 MapReduce。 相 比 之 下 ，Hadoop 2.0 
功能 更 加 强大 、 扩 展 性 更 好 ， 并 且 能 够 支持 多 种 计算 框架 。 

另外 ， 值 得 一 提 的 是 Hadoobp 名 称 的 由 来 。Hadaoop 是 Doug Cutting 的 儿子 为 “一 头 
吃 饱 了 的 棕 黄 色 大 象 ” 取 的 名 字 ，Hadoop 的 标志 如 图 2. 1 所 示 。Hadoop 后 来 的 很 多 子 
项 目 和 模块 的 命名 方式 都 沿用 了 这 种 风格 。 如 Pig 和 Hive。 


图 2.1 Hadoop 的 标志 















































Hadoop 的 优势 


Hadoop 的 特点 在 于 能 够 存储 并 管理 PB 级 数据 ， 能 够 很 好 地 处 理 非 结 
< 构 化 数据 ， 擅 长 大 吞吐 量 的 数据 处 理 ， 应 用 模式 为 “一 次 写 多 次 读 ” 存 取 
旷 模式。 由 于 采用 分 布 式 架构 ，Hadoop 具有 可 扩充 的 分 布 式 架 构 、 擅 于 处 理 
【Hadoop 环境 非 结 构 化 数据 、 自 动 化 的 并 行 处 理 机 制 、 可 靠 性 高 和 容错 性 强 、 计 算 靠 近 

谷 建 】 存储 、 低 成 本 计算 和 存储 等 优势 ,下面 分 别 介绍 。 

1, 可 扩充 的 分 布 式 架 构 

Hadoop 运行 在 普通 的 硬件 设备 集群 上 ， 这 些 硬 件 是 基于 X86 架构 的 普通 计算 机 服务 
器 或 刀片 服务 器 ， 硬 件 被 软件 松散 地 耦合 在 一 起 。Hadoop 的 大 数据 处 理 能 力 是 通过 大 量 
计算 节点 的 横向 扩充 来 实现 的 。 横 向 扩充 是 指 计算 能 力 的 扩充 ， 是 通过 增加 计算 节点 的 
数量 来 实现 的 ;而 纵向 扩充 虽然 也 是 指 计算 能 力 的 扩充 ， 但 却 是 通过 增加 单个 计算 节点 


















的 中 央 处 理 器 和 存储 等 设备 的 处 理 能 力 来 实现 的 。 对 Hadoop 而 言 ， 扩 充 是 很 容易 的 工 
作 ， 即 简单 增加 机 架 ， 并 告知 系统 用 新 增加 的 硬件 来 重新 均衡 系统 ，Hadoop 使 近 线 扩充 
成 为 可 能 。 在 Hadoop 架构 下 ， 增 加 节点 能 实现 线性 扩充 ， 即 增加 节点 可 先行 增加 存储 、 
查询 和 加 载 性 能 。Hadoop 能 支持 约 4000 个 节点 及 主 节 点 的 并 行 处 理 能 力 。 假 设 每 个 节点 
有 几 十 TB (1TB 王 1024GB) 的 处 理 能 力 ，4000 个 节点 就 能 形成 PB (1PB 王 1024TB) 级 以 上 
的 海量 数据 处 理 能 力 。 


2. 擅 于 处 理 非 结 构 化 数据 


关系 型 数据 库 管理 系统 或 者 并 行 处 理 系统 用 ETL(Extraction- Transformation- Load- 
ing， 抽 取 - 转 换 -加 载 ) 过 程 来 实现 数据 库 到 数据 仓库 的 转换 ， 有 利于 将 预先 定义 好 格式 的 
数据 转化 到 可 预知 格式 的 目标 数据 。 但 是 ，ETL 过 程 对 半 结 构 化 和 非 结 构 化 及 复杂 数据 
的 处 理 并 不 有 效 。 在 这 种 情况 下 ，Hadoop 是 基于 一 个 低 成 本 灵活 和 高 扩展 的 分 布 
式 文件 系统 ， 它 能 够 使 非 结 构 数 据 处 理 从 传统 数据 库 策 拙 的 ETL 工作 中 解放 出 来 。 

3. 自动 化 的 并 行 处 理 机 制 

Hadoop 内 部 处 理 自动 化 并 行 ， 无 须 人 工分 区 或 优化 。 数 据 分 布 在 所 有 并 行 节点 上 ， 
每 个 节点 只 处 理 其 中 一 部 分 数据 。 每 个 节点 上 的 数据 加 载 与 访问 方式 与 关系 型 数据 库 相 
同 。 所 有 节点 同时 进行 并 行 处 理 ， 节 点 之 间 完 全 无 共享 、 无 输入 /输出 (IO) 冲 突 ， 是 最 
优化 的 WO 处 理 机 制 。Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ， 并 保证 各 个 节点 的 动态 
平衡 ， 因 此 处 理 速 度 非常 快 。 在 Hadoop 上 运行 分 析 任 务 比 在 RDBMS(Relational Data- 
base Management System， 关 系数 据 库 管理 系统 ) 和 MPPCMassively Parallel Processing， 
大 规模 并 行 处 理 ) 上 运行 任务 快 。 

4， 可 靠 性 高 、 容 错 性 强 

Hadoop 能 够 自动 保存 数据 的 多 个 副本 ,并 且 能 够 自动 将 失败 的 任务 重新 分 配 ， 数 据 
丢失 的 概率 很 小 ,同时 也 保证 了 数据 的 存储 成 本 很 低 。 

5. 计算 靠近 存储 

在 Hadoop 中 ,计算 与 存储 是 一 体 的 ， 计 算 向 数据 靠拢 ， 实 现 了 一 种 高 效 、 专 用 的 存 
储 模 式 ， 能 够 实现 任务 之 问 无 共享 、 无 依赖 ， 具 有 高 的 系统 横向 延展 性 。Hadoop 要 分 析 
的 数据 通常 都 是 TB 级 别 以 上 的 ,网 络 I/O 开销 不 可 忽视 ， 但 分 析 程 序 通常 不 会 很 大 ， 所 
以 系统 传递 的 是 计算 方法 ， 而 不 是 数据 文件 ， 因 此 在 物理 上 每 次 计算 都 是 在 相近 的 节点 
上 进行 的 (同一 台 机 器 或 同 局 域 网 )， 大 大 降低 了 1/O 消耗 ， 而 且 如 果 计 算 程序 要 经 常 使 
， 也 可 作 缓 存 。 


6. 低 成 本 计算 和 存储 


在 Hadoop 中 ,硬件 设备 是 价格 很 低 的 普通 设备 ， 当 硬件 设备 不 足 时 ，Hadoop 集 
群 能 够 以 低廉 的 成 本 迅速 增加 。 所 以 在 Hadoop 中 数据 保留 的 时 间 可 以 很 长 ,不 必 采 用 
数据 采样 进行 决策 就 能 以 更 细 粒 度 的 全 量 数据 进行 分 析 ， 提 高 数据 分 析 的 准确 性 。 直 
接 从 Hadoop 框架 中 存储 、 分 析 ， 比 从 后 台 的 近 线 存储 中 调 出 数据 更 有 效率 、 更 节省 


成 本 。 
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由 于 Hadoop 具有 上 述 优势 ,使 其 在 学 术 界 和 工商 界 都 颇 受 欢迎 ， 它 已 经 成 为 许多 
业 和 学 校 基础 计算 平台 的 一 部 分 。 


Hadoop 1.0 与 Hadoop 2.0 


回回 与 Hadoop 1.0 相 比 ，Hadoop 2.0 在 整体 框架 结构 上 发 生 了 重大 变 

3 ”化 ， 变 得 更 加 通用 ， 未 来 目标 定位 更 加 明确 。Hadoop 2.0 仍旧 延续 了 功 

天 于 能 简单 、 结 构 紧 凑 的 特点 ， 并 获得 了 Hadoop 社区 的 延续 维护 ， 主 要 应 用 
THadoop 2.0 5 于 科研 或 教育 领域 ， 以 及 对 已 将 Hadoop 应 用 到 实际 产品 中 的 前 期 版 本 继 
Hadoop 3.0 对 比 1 续 提供 技术 支持 。 

HDFS 和 MapReduce 是 Hadoop 系统 的 两 个 核心 ，HDFS 提供 分 布 式 存储 ，MapRe- 
uce 提供 分 布 式 处 理 ， 客 户 端 在 Hadoop 上 进行 的 几乎 所 有 操作 在 底层 都 转化 为 分 布 式 
MapReduce 任务 进行 实际 处 理 ， 然 后 将 处 理 结果 使 用 HDFS 进行 分 布 式 存储 。Hadoop 
.0 在 使 用 MapReduce 进行 分 布 式 任务 处 理 时 ， 将 设计 的 资源 管理 和 任务 调度 /监控 都 由 
MapReduce 作业 管理 进程 JobTracker 负责 ， 随 着 分 布 式 系统 的 集群 规模 及 其 工作 负荷 增 
长 ， 这 种 处 理 方式 存在 如 下 问题 。 

(1)JobTracker 是 MapReduce 的 集中 处 理 点 ;存在 单 点 故障 风险 。 

(2)JobTracker 肩负 了 太 多 的 任务 ， 造 成 过 多 的 资源 消耗 ， 当 MapReduce 作业 非常 
多 时 ， 内 存 开 销 会 很 大 ， 增 加 了 JobTracker 出 错 的 风险 ， 这 也 是 业界 普遍 明确 的 Hadoop 
.0 的 MapReduce 只 能 支持 4000 个 节点 主机 上 限 的 原因 。 

(3) 在 源 代码 层面 进行 分 析 时 会 发 现代 码 非常 难 读 ; 常常 因为 一 个 Java 类 做 了 太 多 
的 事情 ， 代 码 量 超过 3000 行 。 造 成 相关 类 别 的 任务 不 清晰 ， 增 加 了 Bug (漏洞 ) 修 复 和 版 
本 维护 的 难度 。 

4) 从 操作 的 角度 来 看 ，Hadoop 1.0 中 的 “MapReduce 框架 在 进行 更 新 或 升级 操作 时 
都 会 强制 进行 系统 级 别 的 升级 更 新 ， 增 加 了 用 户 使 用 Hadoop 的 难度 和 用 户 为 了 验证 以 前 
的 应 用 程序 是 否 适 侣 新 版 Hadoop 的 时 间 。 
基于 Hadoop 1.0 存在 的 上 述 问题 ， Hadoop 社区 从 版 本 0. 23. x 开始 针对 原 有 Ma- 
pReduce 可 扩展 性 优先 的 情形 对 Hadoop 整体 框架 进行 了 重新 定义 ， 为 了 与 原 有 的 Ma- 
pReduce 进行 区 分 ， 新 MapReduce 被 称 为 MapReduce2 或 Mrv2。Mrv2 将 原 有 MapRe- 
duce 中 的 JobTracker 所 兼 有 的 资源 管理 和 作业 任务 调度 /监控 两 项 主要 功能 拆 分 为 两 个 
独立 的 模块 : 对 整个 群集 进行 资源 管理 的 ResourceManager 模块 ;针对 每 个 特定 应 用 进 
行 任务 调度 /监控 的 ApplicationMaster 模块 。 

ResourceManager 和 与 其 相对 应 运行 在 每 个 节点 上 的 NodeManager 负责 整个 群集 资源 的 
分 配 操作 ，ResourceManager 管理 整个 群集 资源 的 分 配 信息 ，NodeManager 根据 ResourceMa- 
nager 提供 的 资源 分 配 信息 ， 在 每 台 机 器 节点 上 执行 实际 资源 分 配 或 回收 操作 。 

ApplicationMaster 相当 于 框架 的 一 个 特殊 类 库 ， 每 个 可 运行 的 应 用 都 有 一 个 独立 的 Ap- 
plicaitonMaster， 在 可 运行 的 整个 生命 周期 中 (可 运行 应 用 从 开始 启动 到 退出 结束 ) 一 直 存 在 ， 
于 为 特定 应 用 向 ResourceManager 申请 所 需要 的 资源 ， 以 及 整个 应 用 运行 期 间 与 NodeMa- 
nager 共同 监控 和 管理 任务 的 执行 过 程 。 

2012 年 Hadoop 社区 通过 对 Hadoop 0.23.1 的 所 有 功能 进行 重新 整合 ， 发 布 了 
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0. 23. 2 版 本 ， 然 后 在 Hadoop 0. 23. 2 中 添加 了 HDFS Node HA(High Availability， 高 可 
用 性 ) 功 能 ,衍生 出 Hadoop 2. 0 系列 的 第 一 个 Alpha 版 本 。 

Hadoop 2.0 将 对 整个 集群 进行 资源 管理 的 功能 从 MapReduce 中 分 离 出 来 ， 形 成 一 个 
独立 的 功能 组 件 YARN， 专 门 对 集群 中 的 CPU、 内 存 等 资源 进行 管理 ， 因 此 Hadoop 2.0 
平台 包括 MapReduce、HDFS、YARN 这 3 个 核心 组 件 ， 将 分 布 式 系统 的 3 个 复杂 特性 
分 布 式 存储 、 分 布 式 资源 调度 、 分 布 式 计算 分 离 成 3 个 独立 的 功能 组 件 ， 提 高 了 Hadoop 
的 整体 结构 清晰 度 和 功能 维护 的 灵活 性 。 

对 比 Hadoop 1.0 和 Hadoop 2.0， 其 核心 架构 变化 如 图 2. 2 所 示 。 














Hadoop 1.0 Hadoop 2.0 
MapReduce HDFS MapReduce HDFS YARN 
Common Common 





图 2.2 Hadoop 1.0 和 Hadoop 2.0 的 核心 架构 变化 


2.2 Hadoop 的 架构 与 组 件 


Hadoop 的 基础 组 件 是 HDFS 和 MapReduce， 其 中 HDFS 提供 了 海量 数据 的 存储 ， 
MapReduce 提供 了 对 数据 的 计算 。 但 与 Hadoop 相关 的 YARN、Hive、Avro 等 组 件 也 都 
是 不 可 或 缺 的 ， 它 们 可 以 提供 互补 性 服务 或 者 在 核心 层 上 提供 更 高 层 的 服务 。 


set 


Hadoop 分 布 式 系 统 基 础 框架 具有 创造 性 和 极 大 的 扩展 性 ， 用 户 可 以 在 不 了 解 分 布 式 
底层 细节 的 情况 下 开发 分 布 式 程序 ， 充 分 利用 集群 的 高 速 运算 和 存储 。 简 单 来 说 ，Ha- 
doop 是 一 个 可 以 更 容易 开发 和 运行 处 理 大 规模 数据 的 软件 平台 。 

Hadoop 架构 示意 图 如 图 2. 3 所 示 。Hadoop 的 基础 组 件 ( 也 是 核心 组 件 ) 包 括 HDFS、 
MapReduce 和 Common。HDFS 是 分 布 式 文件 系统 ，MapReduce 提供 了 分 布 式 计 算 编 程 框 
架 ，Common 是 Hadoop 体系 最 底层 的 一 个 模块 ， 为 通用 硬件 的 云 计算 环境 提供 基本 的 服务 。 


群 
H 
(分 布 式 
言 ) || 数据 仓库 ) 
MapReduce 
(分 布 式 计算 架构 ) 
HDFS (分 布 式 文件 系统 ) 
















Hadoop 的 其 他 组 件 包 括 Pig、YARN、Hive、Flume Chukwa、Avro、ZooKeeper、 
Mahout 等 ( 见 表 2-1)。 
表 2-1 Hadoop 的 其 他 组 件 
































Hadoop 的 其 他 组 件 说 明 
Pig 处 理 海量 数据 集 的 数据 流 语言 和 运行 环境 ,运行 在 HDFS 和 MapReduce 中 
YARN Hadoop 集群 的 资源 管理 系统 
Hive 对 存储 在 Hadoop 中 的 海量 数据 进行 汇总 ， 并 能 使 即时 查询 简单 化 
Flume 高 可 靠 、 高 扩展 、 易 管理 的 开源 数据 采集 系统 
Chukwa 基于 Hadoop 的 大 集群 监控 系统 
re 使 Hadoop 的 RPC (Remote Procedure Call， 远程 过 程 调 用 ) 模块 通信 速 
度 更 快 、 数 据 结构 更 紧凑 
区 让 分 布 式 、 可 用 性 高 的 协调 服务 ， 提 供 分 布 式 锁 之 类 的 基本 服务 ， 用 于 构建 
分 布 式 应 用 
Mahout 一 个 开源 项 目 ， 提 供 一 些 可 扩展 的 机 器 学 习 域 经 典 算法 的 实现 


随 着 Hadoop 的 发 展 ， 其 架构 还 在 不 断 更 新 ,开发 者 们 将 继续 研发 其 他 组 件 来 支撑 海 
基数 据 的 运算 和 存储 。 


Hadoop 整体 架构 中 包括 很 多 组 件 ; 本 苇 主 要 介绍 Hadoop 的 基础 
组 件 。 
1 NameNode 和 DataNode 


NameNode 为 主 节点 ; 又 称 MasterNode; DataNode 为 从 节点 ,又 称 
SlaveNode。 在 DataNode 上 有 一 个 后 台 的 同名 进程 用 来 管理 DataNode 上 所 
有 的 数据 块 ， 通 过 这 个 进程 ，DataNode 会 定期 和 主 节 点 进行 通信 ， 汇 报 本 地 数据 的 状况 。 

和 DataNode 一 样 ，NameNode 上 也 有 一 个 同名 的 后 台 进 程 ， 而 所 有 的 文件 匹配 信息 则 
保存 在 一 个 名 为 fsimage 的 文件 中 ， 所 有 新 的 操作 修改 都 保存 在 一 个 名 为 edits 的 文件 中 ,此 
内 容 会 定期 写 人 fsimage 文件 中 。 把 fsimage 和 edits 文件 中 的 信息 综合 起 来 ， 就 可 以 得 到 所 
有 数据 文件 和 所 对 应 数据 块 的 具体 位 置 ， 而 这 些 信息 都 会 保存 在 NameNode 的 内 存 中 。 

在 对 Hadoop 系统 进行 设计 时 ， 对 DataNode 进行 以 下 假设 。 

(1)DataNode 主要 用 来 存储 ， 额 外 的 开销 越 小 越 好 。 

(2) 对 于 普通 的 硬盘 来 说 ， 任 何 硬盘 都 可 能 会 出 现 故障 。 

(3) 文 件 和 数据 块 的 副本 都 是 完全 一 致 的 。 

DataNode 上 一 半 采 用 的 是 普通 硬盘 . 硬盘 的 故障 概率 是 4% 一 5%， 如 果 系 统 上 有 
100 个 DataNode， 而 每 一 个 DataNode 都 有 12 块 硬盘 ， 那 么 平均 每 周至 少 都 需要 更 换 一 
块 硬盘 。 正 是 由 于 以 上 假设 . 才 默 认 Hadoop 系统 上 每 个 文件 和 数据 块 的 访问 可 切换 到 其 
他 副本 上 ， 并 会 重新 设置 使 得 文件 和 数据 块 都 始终 保持 有 3 个 副本 。 

Hadoop 的 用 户 并 不 需要 了 解数 据 存储 的 细节 ， 也 不 需要 知道 文件 的 各 个 数据 块 是 存 





组 件 】 























储 在 哪些 DataNode 上 的 ， 只 需 对 文件 进行 操作 ,对 应 的 拆 分 和 多 个 副本 的 存储 是 由 系统 
自动 完成 的 。 
2. HDFS 


HDFS 是 Hadoop 体系 中 数据 存储 管理 的 基础 。 它 是 一 个 高 度 容 错 的 系统 ， 能 检 
测 和 应 对 硬件 故障 ， 在 低 成 本 的 通用 硬件 上 运行 。HDFS 简化 了 文件 的 一 致 性 模型 ， 
通过 流 式 数 据 访 问 ， 提 供 高 吞吐 量 应 用 程序 数据 访问 功能 ,适合 带 有 大 型 数据 集 的 
应 用 程序 。 

关于 HDFS 的 详细 介绍 参见 第 3 章 。 

3. MapReduce 

MapReduce 是 一 种 编程 模型 ， 用 于 大 规模 数据 集 的 并 行 计算 ; MapReduce 将 应 用 划 
分 为 Map 和 Reduce 两 个 步 又， 其 中 Map 制定 数据 集 上 的 独立 元 素 ; 生成 键 - 值 对 形式 的 
中 间 结 果 ; Reduce 则 对 中 间 结 果 中 相同 “ 键 ” 的 所 有 “ 值 ” 进 行规 约 ， 以 得 到 最 终结 果 。 
MapReduce 的 功能 划分 非常 适合 在 大 量 计算 机 组 成 的 分 布 式 并 行 环境 里 进行 数据 处 理 。 
MapReduce 以 JobTracker 节点 为 主 ， 分 配 工作 并 与 用 户 程序 通信 。 

关于 MapReduce 的 详细 介绍 参见 第 4 章 。 









































1. Common 


Common 是 Hadoop 的 通用 工具 , 用 来 支持 其 他 组 件 。 实 际 上 它 提供 了 文件 系统 和 通 
用 I/O 的 文件 包 ( 包 括 HDFS 和 MapReduce)。 它 主要 包括 系统 配置 工具 、 远 程 过 程 调 用 、 
序列 化 机 制 和 抽象 文件 系统 等 :它们 为 在 廉价 的 硬件 上 搭建 云 计算 环 境 提供 了 基本 的 服 
务 ， 并 且 为 运行 在 平台 3 下 的 软件 开 发 提供 了 所 需 的 API， 其 他 Hadoop 组 件 都 是 在 Com- 
mon 的 基础 上 发 展 起 来 的 。 


Hadoop 的 其 他 组 件 。 


Hadoop 是 一 个 诞生 时 间 不 长 的 系统 ， 一 直 有 爱好 者 和 程序 员 为 完善 Hadoop 系统 而 
开发 各 种 新 组 件 ， 所 以 本 节 介绍 的 这 些 内 容 都 有 可 能 独立 成 为 一 个 有 价值 的 开源 产品 。 


1. YARN 


YARN 是 Hadoop 上 的 一 个 重要 组 件 ， 它 的 主要 用 途 是 让 其 他 数据 处 理 引擎 能 在 
Hadoop 上 顺畅 运行 。 可 以 将 YARN 理解 成 一 个 资源 分 配器 ， 它 可 以 分 配 的 内 容 包 括 内 
存 空间 和 CPU 时 间 ， 未 来 还 有 可 能 包括 网 络 带 宽 等 其 他 资源 。YARN 的 基本 设计 思想 是 
将 MapReduce 中 的 JobTracker 拆 分 为 两 个 独立 的 服务 : 全 局 的 资源 管理 器 ResourceMan- 
ager 和 每 个 应 用 程序 特有 的 ApplicationMaster。 其 中 ResourceManager 负责 整个 系统 的 
资源 管理 和 分 配 ， 而 ApplicationMaster 则 负责 单个 应 用 程序 的 管理 。Container( 人 集装箱) 
是 YARN 中 的 资源 抽象 ， 是 执行 具体 应 用 的 基本 单位 ， 它 包含 某 个 NodeManager 节点 上 
的 多 维度 资源 ， 如 内 存 、CPU、 磁 盘 等 ; 任何 一 个 作业 或 应 用 程序 必须 运行 在 一 个 或 多 
个 Container 中 。 在 YARN 中 ，ResourceManager 只 负责 告诉 ApplicationMaster 哪些 
Containers 可 以 用 ，ApplicationMaster 需要 自己 去 找 NodeManager 请 求 分 配 具体 的 Con- 














tainer。 一 个 节点 可 运行 多 个 Containers， 但 一 个 Container 不 会 跨 节 点 。YARN 的 执行 
路 线 图 如 图 2.4 所 示 。 其 中 ，Client 代表 客户 端 ，ResourceManager 代表 资源 管理 ， 
NodeManager 代表 节点 管理 ，Container 代表 集装箱 ，ApplicationMaster 代表 应 用 程序 管 
理 员 ， 
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图 2.4 YARN 的 执行 路 线 图 


Hadoop 上 使 用 YARN 的 步骤 如 下 。 

(1) 应 用 程序 向 YARN 提出 申请 ，YARN 请 求 NameNode 上 的 NodeManager 创建 一 
个 ApplicationMaster 实例 。 

(2) 新 的 ApplicationMaster 在 YARN 上 注册 。 

(3)ApplicationMaster 访问 NameNode， 得 到 应 用 程序 需要 的 文件 、 数 据 块 的 名 字 和 
具体 位 置 ， 计 算出 运行 整个 应 用 程序 需要 的 处 理 资源 。 

(4)ApplicaitonMaster 从 YARN 上 申请 所 需 的 资源 ，YARN 接受 资源 申请 并 将 其 加 
人 申请 队列 中 。 

(5) 当 ApplicationMaster 申请 的 资源 可 以 被 使 用 时 ，YARN 批准 ApplicationMaster 
实例 在 指定 的 DataNode 上 运行 。 

(6)ApplicaitonMaster 向 NameNode 发 送 一 个 CLC(Container Launch Context， 容 器 
启动 上 下 文 )，CLC 中 包含 应 用 程序 所 需要 的 环境 变量 、 安 全 认证 、 运 行 时 需要 的 本 地 资 
源 及 命令 行 参数 等 。 

(7)NameNode 接受 申请 并 创建 一 个 容器 ， 当 容器 的 进程 开始 运行 时 ， 应 用 程序 就 开 
始 运行 了 。 

(8)YARN 在 应 用 程序 的 整个 运行 过 程 中 要 保证 所 有 的 资源 都 是 可 用 的 ， 而 且 如 果 优 
先 级 有 变化 ，YARN 会 随时 中 断 应 用 程序 的 运行 。 
































(9) 当 所 有 的 任务 都 完成 后 ，ApplicationMaster 把 结果 发 送 给 应 用 程序 ， 并 解除 其 在 
YARN 上 的 注册 。 


2. Pig 


SQL( 结 构 化 查询 语言 ) 是 一 种 描述 性 的 语言 ， 对 程序 员 来 说 功能 是 不 够 的 ， 他 们 更 
希望 可 以 在 查询 的 同时 还 能 进行 数据 处 理工 作 ， 其 至 改动 一 些 数据 ， 所 以 才 产 生 了 Pig 这 
种 类 似 SQL 的 描述 性 查询 语言 和 过 程 性 编程 语言 。Pig 最 突出 的 优势 是 它 的 结构 能 够 经 
受 住 高 度 并 行 化 的 检验 ， 这 个 特性 让 它 能 够 处 理 大 型 的 数据 集 。 目 前 ，Pig 的 底层 由 一 个 
编译 器 组 成 ， 它 在 运行 时 会 产生 一 些 MapReduce 程序 序列 。 

Pig 包含 两 个 组 成 成 分 ，Pig 上 的 编程 语言 PigLatin 和 能 够 翻译 PigLatin 的 编译 器 ， 
可 以 把 用 PigLatin 写成 的 代码 转换 成 可 执行 的 代码 。 

Pig 与 Hive 都 简化 了 MapReduce 程序 的 开发 ， 但 它们 的 不 同 点 在 于 以 下 几 个 方面 。 

(1) Hive 作为 数据 分 析 引 擎 有 一 定 限 制 ， 只 能 分 析 结 构 化 数据 ，” 因 为 Hive 的 数据 模 
型 是 表 结构 ， 没 有 数据 存储 引擎 ， 需 要 用 户 在 创建 表 时 指定 分 隔 符 ( 默 认 以 Tab 键 作为 分 
隔 符 ); 而 Pig 的 数据 模型 是 包 结构 ， 可 以 分 析 任 意 类 型 的 数据 。 

(2) Hive 使 用 的 是 SQL 语句 分 析 数 据 ，SQL 请 句 是 一 种 声明 式 请 言 ，Pig 使 用 的 是 
PigLatin 语句 分 析 数据 ，PigLatin 语句 是 一 种 过 程式 语言 /脚本 语句 。 

(3) Hive 中 的 内 置 函 数 无 须 大 写 ，Pig 中 的 内 置 函 数 必须 要 大 写 。 

(4) Hive 保存 元 信息 ， 因 此 数据 模型 不 用 重建 ; 而 Pig 不 保存 元 信息 ， 因 此 数据 模型 
需要 重建 。 

(5)PigLatin 语句 是 脚本 语言 ,因此 Hive 执行 速度 比 P 氨 更 快 。 

(6) Hive 的 数据 模型 是 表 结 构 ， 因 此 Hive 是 先 创 建 表 后 加 载 数据 ; 而 Pig 的 数据 模 
型 是 包 结构 ， 所 以 Pig 在 加 载 数 据 的 同时 创建 包 。 

3. HBase 


HBase 即 HadoopDatabase， 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 。HBase 不 同 于 
一 般 的 关系 数据 库 ， 它 是 一 个 适合 存储 非 结构 化 的 数据 库 ， 而 且 它 是 基于 列 的 模式 而 非 
基于 行 的 模式 。 用 户 将 数据 存储 在 一 个 表 里 ， 一 个 数据 行 拥有 一 个 可 选择 的 键 和 任意 数 
其 的 列 。 由 于 HBase 表示 朴 松 的 数据 ， 用 户 可 以 给 行 定义 各 种 不 同 的 列 。HBase 主要 用 
于 需要 随机 访问 、 实 时 读 写 的 大 数据 。 
在 传统 的 数据 库 RDBMS 中 ,数据 是 按照 行 存储 的 ， 没 有 索引 的 查询 将 使 用 大 量 的 
1/O， 建 立 索 引 和 视图 需要 花费 大 量 的 时 间 和 资源 ， 面 对 查询 需求 ， 数 据 库 必须 大 量 脱 胀 
才能 满足 性 能 要 求 。 而 在 HBase 中 ,数据 是 按 列 存储 的 ， 查询 时 只 访问 所 涉及 的 列 ， 大 
量 降 低 了 系统 1O， 数 据 类 型 一 致 ， 可 以 高 效 压 缩 存储 。HBase 对 数据 的 存储 方式 和 数据 
结构 进行 了 修改 和 规整 ， 让 其 更 加 善于 处 理 大 数据 ， 但 也 因此 导致 HBase 有 其 对 应 的 局 
民 性 。HBase 的 设计 目标 并 非 要 替代 RDBMS(Relational Database Management System， 
关系 数据 库 管理 系统 )， 而 是 对 RDBMS 的 一 个 重要 补充 。 因 此 ， 在 使 用 时 应 按照 具体 应 
场景 来 判断 使 用 哪 种 类 型 的 数据 库 。 
HBase 主要 由 三 部 分 构成 ， 即 客户 端 (Client)、 主 服务 器 (HMaster) 和 区 域 服务 器 
(Region Server) ， 区 域 服务 器 可 按照 应 用 需求 进行 添加 或 删除 。 
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(1l)Client 。 

Client 包含 访问 HBase 的 接口 ， 并 维护 高 速 缓存 来 加 快 对 HBase 的 访问 ， 如 区 域 的 
位 置信 息 等 。 

(2)HMaster。 

HMaster 为 Region Server 分 配 区 域 ， 负 责 Region Server 的 负载 均衡 ， 发 现 失效 的 
Region Server 并 重新 分 配 区 域 ， 同 时 管理 用 户 对 表 的 增删 改 查 操 作 。 

(3)Region Server。 

Region Server 维护 区 域 ， 处 理 对 这 些 区 域 的 IO 请 求 ， 同 时 负责 切 分 在 运行 过 程 中 
变 得 过 大 的 区 域 。 

还 有 一 个 起 到 重要 辅助 支持 作用 的 组 件 ZooKeeper。 通 过 选举 ,保证 在 任何 时 候 集群 
中 只 有 一 个 HMaster，HMaster 与 Region Server 启动 时 会 向 ZooKeeper 注册 ， 并 存储 所 
有 Region 的 寻 址 人 口 ， 实 时 监控 Region Server 的 上 线 和 下 线 信息 ， 并 实时 通知 HMas- 
ter， 存 储 HBase 的 schema 和 table 元 数据 。 默 认 情 况 下 y HBase 管理 ZooKeeper 实例 ， 
如 启动 或 者 停止 ZooKeeper。ZooKeeper 的 引入 解决 了 百 Master 单 点 故障 的 问题 。 

4，Hive 


Hive 最 早 是 由 Facebook 设计 的 基于 Hadoop 的 一 个 数据 仓库 工具 ， 可 以 将 结构 化 的 数据 
文件 映射 为 一 张 数 据 库 表 ， 并 提供 类 SQL 查询 功能 。Hive 没有 专门 的 数据 存储 格式 ， 也 没有 
为 数据 建立 索引 ， 用 户 可 以 非常 自由 地 组 织 其 中 的 表 ， 只 需要 在 创建 表 时 告知 数据 中 的 列 分 隔 
符 和 行 分 隔 符 ，Hive 就 可 以 解析 数据 .Hive 中 的 所 有 数据 都 存储 在 HDFS 中 ,其 本 质 是 将 
SQL 转换 为 MapReduce 程序 从 而 完成 查询 。Hive 与 Hadoop 的 关系 图 如 图 2. 5 所 示 。 











1 
图 2.5 Hive 与 Hadoop 的 关系 图 


使 用 Hive 的 命令 行 接口 ， 在 操作 上 与 使 用 关系 数据 库 类 似 , 但 是 本 质 上 有 很 大 不 
同 。 例 如 ,关系 数据 库 是 为 实时 查询 业务 而 设计 的 ,而 Hive 是 为 海量 数据 进行 数据 挖掘 
设计 的 ， 实 时 性 很 差 ，Hive 使 用 的 计算 模型 是 MapReduce， 而 关系 数据 库 使 用 的 则 是 自 
己 设 计 的 计算 模型 。 

Hive 与 HBase 的 相同 点 都 是 架构 在 Hadoop 上 ， 其 区 别 与 联系 (对 比 ) 见 表 2-2。 


表 2-2 HBase 与 Hive 对比 
























































维 度 HBase Hive 

用 途 弥补 Hadoop 的 实时 操作 减少 并 行 计算 编写 工作 的 批 处 理 系 统 
检索 方式 适用 于 索引 访问 适用 于 全 表 扫 描 

存储 物理 表 纯 逻 辑 表 

功能 只 负责 组 织 文件 既 要 存储 文件 又 需要 计算 框架 
执行 效率 执行 效率 高 执行 效率 较 低 




















5. Avro 


Avro 由 Doug Cutting 牵头 开发 ， 是 一 个 序列 化 系统 ,类似 于 其 他 序列 化 机 制 。Avro 
可 以 将 数据 结构 或 者 对 象 转换 成 便于 存储 和 传输 的 格式 ， 其 设计 目标 是 适用 于 支持 数据 
密集 型 应 用 ， 适 合 大 规模 数据 的 存储 与 交换 。Avro 提供 了 丰富 的 数据 结构 类 型 、 快 速 可 
压缩 的 二 进 制 数据 格式 、 存 储 持久 性 数据 的 文件 集 和 简单 动态 语言 集成 等 功能 。 

Avro 有 以 下 几 个 特点 。 

(1) 数据 结构 类 型 丰富 。 

(2) 快 速 可 压缩 的 二 进 制 数据 形式 ， 对 数据 二 进 制 序列 化 后 可 以 节约 数据 存储 空间 和 
网 络 传输 带宽 。 

(3) 存 储 持久 数据 的 文件 容器 。 

(4) 可 以 实现 RPC。 

(5) 简 单 的 动态 语言 结合 功能 。 

Avro 支持 跨 编 程 语言 实现 ,但 是 相 较 于 其 他 编程 语言 ，Avro 的 显著 特征 包括 : Avro 依 
赖 于 模式 ， 动 态 加 载 相关 数据 的 模式 ，Avro 数据 的 读 写 操 作 很 频繁 ， 而 这 些 操作 使 用 的 都 
是 模式 ， 这 样 就 减少 了 写 入 每 个 数据 文件 的 开销 使 得 序列 化 快速 而 又 轻巧 。 这 种 数据 及 其 
模式 的 自我 描述 方便 了 动态 脚本 语言 的 使 用 :| 当 Avro 数据 存储 到 文件 中 时 ， 它 的 模式 也 随 
之 存储 ， 因 此 任何 程序 都 可 以 对 文件 进行 处 理 。 如 果 读 取 数 据 时 使 用 的 模式 与 写 入 数据 时 使 
用 的 模式 不 同 ， 也 很 容易 解决 ， 因 为 读 取 和 写 人 的 模式 都 是 已 知 的 。 

Avro 支持 两 种 序列 化 编码 方式 : 二 进 制 编码 和 JSON(JS 对象 简 说 编码 。 使 用 二 进 制 
编码 会 高 效 序列 化 ， 并 且 序 列 化 后 得 到 的 结果 较 小 ; 而 JSON 一 般 用 于 调试 系统 或 是 基于 
Web 的 应 用 。 对 Avro 数据 序列 化 / 反 序列 化 时 “都 需要 对 模式 以 深度 优先 、 从 左 到 右 的 迪 
历 顺序 来 执行 。 基 本 类 型 的 序列 化 容易 解决 ,混合 类 型 的 序列 化 会 有 很 多 不 同 规则 。 对 于 基 
本 类 型 和 混合 类 型 的 三 进 制 编码 ， 在 文档 中 规定 : 按照 模式 的 解析 顺序 依次 排列 字 节 。 对 于 
JSON 编码 ， 联 谷类 型 就 与 其 他 混合 类 型 表现 不 一 致 。 为 了 便于 MapReduce 处 理 ，Avro 定 
义 了 一 种 容器 文件 格式 。 在 这 样 的 文件 中 只 能 有 一 种 模式 ， 所 有 需要 存 和 人 这 个 文件 的 对 象 都 
需要 按照 这 种 模式 以 二 进 制 编码 的 形式 写 人 。 对 象 在 文件 中 以 块 来 组 织 ， 并 且 这 些 对 象 都 是 
可 以 被 压缩 的 。 块 和 块 之 间 存 在 同步 标记 符 ， 以 方便 MapReduce 切割 文件 。 

6. ZooKeeper 

ZooKeeper 是 一 个 分 布 式 的 、 开 放 源 码 的 分 布 式 应 用 程序 协调 服务 ， 0 
(分 布 式 锁 服 务 ) 的 一 个 开源 实现 ， 是 Hadoop 和 HBase 的 重要 组 件 。 它 是 一 个 为 分 布 式 
应 用 提供 一 致 性 服务 的 软件 ， 提 供 的 功能 包括 : 配置 维护 、 a 分 布 式 同 步 、 组 
服务 等 。 

ZooKeeper 的 目标 就 是 封装 好 复杂 易 出 错 的 关键 服务 ,将 简单 易 用 的 接口 和 性 能 高 
效 、 功 能 稳定 的 系统 提供 给 用 户 。 

在 分 布 式 系统 中 ， 如 何 就 某 个 问题 达成 一 致 是 一 个 十 分 重要 的 基础 问题 。 作 为 一 个 
分 布 式 的 服务 框架 ，ZooKeeper 解决 了 分 布 式 计 算 中 的 一 致 性 问题 。 在 此 基础 上 ，Zoo- 
Keeper 可 用 于 处 理 分 布 式 应 用 中 经 常 遇 到 的 一 些 数据 管理 问题 ， 如 统一 命名 服务 、 状 态 
















































































同步 服务 、 集 群 管理 、 分 布 式 应 用 配置 项 的 管理 等 。ZooKeeper 常 作为 其 他 Hadoop 相关 
项 目的 主要 组 件 发 挥 着 越 来 越 重要 的 作用 。 


2.3 Hadoop 的 具体 应 用 


2.1 节 和 2.2 节 已 经 对 Hadoop 的 发 展 历史 、 架 构 和 组 件 进行 了 讲解 ， 本 节 整 理 了 一 
些 Hadoop 的 经 典 案例 ， 有 助 于 更 好 地 理解 Hadoop 技术 是 如 何 促进 这 些 领域 大 数据 处 理 
能 力 提升 的 。 


Hadoop 在 百度 的 应 用 


作为 在 中 国 网 络 搜索 市 场 份额 第 一 的 公司 ， 百 度 近年 来 以 搜索 为 核心 ,拓展 了 与 搜 
索 相 关 的 多 个 领域 ， 包 括 以 贴吧 为 主 的 社区 搜索 、 行 业 垂直 搜索 、 音 乐 搜索 以 及 文库 和 
百科 等 ， 其 业务 范围 几乎 蓝 盖 了 互联 网 用 户 在 查找 中 文 资料 时 所 需 的 所 有 途径 。 随 着 中 
国 互联 网 用 户 数量 的 快速 增长 和 网 络 搜索 依赖 程度 的 提高 ' 百度 需要 处 理 的 数据 规模 越 
来 越 大 ， 对 搜索 速度 和 搜索 质量 的 要 求 也 越 来 越 高 。 因 此 ， 百 度 一 直 是 大 数据 处 理 相关 
技术 领域 的 活跃 者 。Hadoop 技术 出 现 之 初 ， 百度 就 采用 了 多 方面 的 技术 探索 并 获得 了 不 
错 的 成 果 。 

根据 百度 近期 公布 的 资料 ， 目 前 公司 内 部 构建 的 基于 Hadoop 的 大 数据 处 理 平台 已 部 
署 超过 20000 个 节点 ， 最 大 集群 超过 4000 个 节点 ， 日 均 处 理 的 任务 数 超过 120000 个 ,每 
天 处 理 的 数据 量 超过 20TB， 并且 其 规模 和 处 理 能 力 还 在 持续 增长 中 。 由 于 百度 自身 业务 
的 多 样 性 ， 其 大 数据 处 理 平台 并 没有 采用 单一 的 Hadoop 技术 架构 ， 而 是 综合 运用 了 包括 
高 性 能 计算 、MapReduce 在 内 的 各 种 技术 以 满足 不 同 应 用 场景 的 需求 。 

在 百度 使 用 Hadeop 技术 的 过 程 中 ， 经 过 大 量 的 时 间 发 现 了 Hadoop 框架 中 的 一 些 基 
础 组 件 的 不 足 * 结合 自身 的 特点 ， 百 度 对 ;Hadoop 相关 技术 进行 了 以 下 几 个 方面 的 改进 。 

1，HDFS2 分 布 式 NameNode 

HDFS 是 Hadoop 中 对 文件 资源 进行 管理 的 核心 模块 ， 因 此 其 性 能 与 稳定 性 对 Ha- 
doop 整个 系统 的 运行 至 关 重要 。 百 度 在 实践 过 程 中 发 现 ， 当 集群 规模 扩大 时 ，HDFS 模 
块 中 的 NameNode 将 面临 极 大 的 请 求 压 力 ， 很 容易 成 为 单 点 故障 和 性 能 瓶颈 。 例 如 在 百 
度 系统 中 ， 当 存储 的 数据 达到 10 亿 个 文件 、10 亿 个 数据 块 时 ，NameNode 需要 380GB 的 
内 存 ， 其 中 块 管理 需要 240GB， 目录 树 需要 140GB. 这 将 是 NameNode 面临 的 极 大 挑战 
为 了 解决 这 一 问题 ， 百 度 在 对 相关 技术 进行 调研 后 ， 提 出 并 实现 了 自 有 的 解决 方案 
HDFS2， 其 结构 图 如 图 2.6 所 示 。 

HDFS 在 本 质 上 是 一 种 NameNode 的 分 布 式 实现 ， 其 基本 思路 是 通过 轻 量 级 命名 空 
间 和 共享 对 象 管理 层 降低 NameNode 的 负载 。HDFS2 的 结构 可 以 分 为 两 层 : 上 层 为 联合 
命名 空间 ， 相 当 于 HDFS 的 NameNode 部 分 ; 下层 为 对 象 管理 层 ， 相当 于 HDFS 中 的 
DataNode 部 分 。 与 HDFS 中 的 NameNode 相 比 ， 联 合 命名 空间 不 再 负责 文件 属性 和 块 管 
理 ， 而 是 将 这 部 分 功能 移 到 了 对 象 管理 层 中 。 对 象 管理 层 将 文件 标识 和 数据 块 管理 功能 
与 负责 数据 块 物理 存储 的 DataNode 整合 在 一 起 。 客 户 端 访问 HDFS2 的 数据 时 ， 先 通过 
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2.6 HDFS2 结构 图 


联合 命名 空间 查找 到 对 应 的 DataNode 和 文件 标识 * 并 根据 这 些 信 息 访问 对 应 的 DataN- 
ode 获取 文件 属性 和 数据 块 信息 。 

经 过 HDFS2 这 样 的 改进 ， 很 多 数据 不 再 存储 在 NameNode 上 ， 并 减少 了 需要 通过 
NameNode 的 请 求 数量 ， 从 而 大 幅度 降低 了 NameNode 的 请 求 压 力 。 同 时 对 象 管理 层 采 
用 支持 水 平 扩展 的 实现 方式 ， 可 以 极 好 地 适应 未 来 数据 增长 的 需要 。 根据 公司 内 部 的 预 
计 ， 未 来 数据 处 理 量 达到 10. 亿 个 文件 时 ，NameNode 仅 需 要 约 67GB 的 内 存 即 可 支持 ， 
并 减少 了 约 86% 的 原本 需要 通过 NameNode 的 请 求 数量 。 

2，HDFS 的 造 明和 压缩 存储 

在 Hadoop 的 部 署 过 程 中 ，HDFS 系统 中 文件 存储 占用 的 磁盘 空间 是 系统 整体 成 本 
中 的 一 个 主要 部 分 ,尤其 是 在 类 似 百度 这 样 业务 数据 体 量 庞大 的 环境 下 。 为 了 降低 存 
储 成 本 ， 一 种 有 效 的 手段 就 是 采用 压缩 技术 存储 数据 。 但 是 将 压缩 技术 引入 HDFS 中 
有 一 个 需要 解决 的 问题 ， 就 是 压缩 和 解压 缩 是 很 消耗 CPU 资源 的 ， 不 能 让 这 样 的 操作 
影响 MapReduce 任务 的 执行 效率 ， 如 果 将 压缩 数据 作为 MapReduce 任务 的 输入 ,将 会 对 
Hadoop 应 用 的 开发 额外 增加 难度 。 因 此 百度 采用 了 如 图 2.7 所 示 的 结构 实现 了 一 种 对 用 
户 透明 的 且 在 节点 CPU 空闲 时 进行 压缩 的 机 制 。 

图 2. 7 中 的 Compressor Service( 压 缩 机 服务 ) 模 块 是 在 每 个 DataNode 节点 上 运行 的 一 个 
单独 进程 。 它 定时 向 DataNode 发 送 一 个 名 为 getTask 的 请 求 以 获得 压缩 任务 ， 并 将 任务 分 
配给 若干 处 理 线程 进行 压缩 。Scheduler( 调 度 服务 器 ) 是 封装 在 DataNode 内 部 的 一 个 类 ， 负 
责 将 需要 压缩 的 数据 块 形成 压缩 任务 放 和 一 个 队列 中 ,在 收 到 Compressor Service 的 getTask 
请 求 时 将 若干 压缩 任务 返回 。Block Access Layer( 块 访问 层 ) 是 一 个 逻辑 概念 ， 它 有 两 个 功 
能 : 在 一 个 数据 块 被 压缩 后 ， 向 NameNode 报告 此 数据 块 压缩 前 的 长 度 ; 在 Client 请 求 被 压 
缩 的 数据 块 时 ， 对 该 数据 块 进行 解压 缩 操作 。Policy Controller( 策 略 控制 器 ) 中 存储 了 由 
Compressor Service 设 定 的 用 于 指示 那些 数据 是 否 应 该 进行 压缩 的 黑白 名 单 。 
基于 这 样 的 机 制 ， 百 度 实现 了 一 个 异步 的 、 数 据 块 级 别 的 HDFS 数据 透明 压缩 ， 并 
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图 2.7 HDFS 透明 压缩 存储 结构 
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支持 文件 数据 的 追加 写 人 和 随机 读 取 ,， 每 10TB 的 数据 量 可 以 节省 42% 的 存储 空间 。 

3. DISQL 一 一 大 数据 分 析 语言 

在 百度 对 大 数据 进行 处 理 的 工作 中 ,“ 有 二 项 很 重要 的 工作 就 是 对 网 站 访问 日 志 进 行 
分 析 处 理 ， 其 主要 内 容 是 提取 访问 日 志 的 各 类 字段 和 特征 ,例如 访问 的 网 页 、 网 站 和 点 
击 的 广告 等 ,根据 业务 需要 生成 各 类 报表 ， 并 进行 深度 的 数据 挖掘 和 机 器 学 习 。 在 这 个 
过 程 中 ,包含 大 量 的 可 以 质 象 的 数据 分 析 操 作 ， 如 检索 * 过 滤 、 分 组 、 排 序 、 联 合 等 。 
为 了 支持 这 些 工作 的 高 效 执行 ， 百 度 开发 了 自由 的 分 布 式 数 据 分 析 语 言 (Distributed 
SQL，DISQL)， 并 在 此 基础 上 实现 了 一 个 基于 Web 的 日 志 分 析 平 台 (Log Statistical 
Platform，LSP)， 百 度 DISQL 的 应 用 如 图 28 所 示 。 
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图 2.8 百度 DISQL 的 应 用 


DISQL 实现 了 一 个 轻 量 级 的 类 SQL 数据 分 析 语 言 框架 ， 封装 了 SQL 所 有 基本 操作 
的 MapReduce 分 布 式 实现 ， 包 括 分 组 、 聚 合 、 行 列 过 滤 、 集 合 操作 、 输 入 输出 格式 转换 
等 。 还 可 以 将 有 向 无 环 图 的 数据 流 翻译 为 一 轮 或 多 轮 MapReduce 操作 进行 执行 。 用 户 可 
以 通过 快捷 Web 编辑 模式 、 基 于 DQuery 的 编程 模式 和 MapReduce 编程 复杂 模式 构建 数 
据 分 析 请 求 ， 并 支持 包括 PHP、C 十 十 、Python 语言 在 内 的 自 定义 函数 。 











ETD 
Hadoop 在 华为 的 应 用 


作为 传统 的 电信 设备 供应 商 ， 华 为 在 近 些 年 的 发 展 过 程 中 , 已 经 从 回 回 
传统 电信 网 模式 向 互联 网 模式 转换 。 华 为 在 保持 传统 运营 商 市 场 的 同时 ， 二 
逐步 扩展 企业 和 终端 用 户 市 场 ， 同 时 开展 向 云 计 算 模型 转型 的 工作 ， 以 和 
寻找 新 的 利润 增长 点 。 由 于 华为 在 互联 网 领域 的 积累 相对 较 少 , 在 Ha- [Ha 全 
doop 作为 开源 项 目 出 现时 ， 华 为 就 将 其 视 为 实现 运营 商 与 企业 商业 计算 。 华为 的 应 用 】 
服务 领域 突破 的 重要 支撑 技术 ， 因 此 积极 参与 到 Hadoop 技术 的 应 用 与 改进 中 。 本 节 主 要 
介绍 华为 在 Hadoop 技术 领域 做 的 3 方面 工作 : 扩展 Hadoop 技术 ,自主 研发 了 高 可 用 性 
Hadoop 平台 ， 在 典型 领域 应 用 Hadoop 技术 ,构建 了 基于 Hadoop 的 信 令 监测 平台 ， 在 
上 述 过 程 中 ， 对 Hadoop 核心 项 目 和 周边 项 目的 改进 作出 了 较 大 的 贡献 。 

1. 高 可 用 性 Hadoop 平台 

在 Hadoop 进行 应 用 的 实践 过 程 中 ， 华 为 发 现 已 有 的 Hadoop 技术 在 高 可 用 性 方面 存 
在 较 大 不 足 ， 而 在 电信 运营 商 的 运行 环境 中 ， 高 可 用 性 是 一 个 基本 要 求 。 由 于 开源 Ha- 
doop 系统 中 的 NameNode、JobTracker、HiveServer 等 组 件 存在 单 点 故障 问题 ， 且 故障 
发 生 后 需要 人 工 干预 才能 恢复 服务 。 另 外 ， 其 他 一 些 进 程 也 存在 发 生 故 障 后 不 能 进行 报 
警 也 不 能 自动 回复 的 问题 ， 这 就 让 Hadoop 系统 在 一 些 严格 要 求 高 可 用 性 的 应 用 环境 中 存 
在 较 大 的 隐患 。 为 了 解决 这 一 问题 , 在 -Hadoop 开源 代码 的 基础 上 ， 华 为 构建 了 Name- 
Node、JobTracker、HiveServe 等 组 件 的 HA (高 可 用 性 ) 功能 ,确保 这 些 关 键 组 件 在 发 
生 故 障 后 系统 能 自动 进行 备用 组 件 的 切换 ， 不 再 需要 人 于 于 预 。 华 为 高 可 用 性 Hadoop 平 

台 组 件 结构 示意 图 如 图 2.9 所 示 。 
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图 2.9 华为 高 可 用 性 Hadoop 平台 组 件 结构 示意 图 
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另外 ， 华 为 高 可 用 性 Hadoop 平台 还 支持 进程 故障 的 自动 报警 功能 ， 并 且 可 由 运 维系 
统 自动 进行 回复 ， 从 而 极 大 提高 了 Hadoop 系统 的 可 用 性 和 故障 容错 性 。 

2. 基于 Hadoop 的 信 令 监测 平台 

华为 采用 Hadoop 技术 推动 SmartCare (此 处 指 华 为 的 解决 方案 ) 信 令 监 测 平台 向 云 
计算 信 令 监测 平台 发 展 ， 以 适应 海量 信 令 数据 处 理 的 需求 。 平 台 包 括 采 集 层 、 存 储 层 、 
处 理 层 和 应 用 层 ， 如 图 2. 10 所 示 。 采 集 层 负 责 各 个 链 路 中 的 各 种 接口 和 协议 实时 数据 的 
采集 。 采 集 到 的 原始 信 令 数据 统一 存放 到 存储 层 中 的 分 布 式 云 存 储 系统 HDFS 中 。 处 理 
层 使 用 采集 的 原始 信 令 数据 和 MapReduce 处 理 后 的 中 间 数 据 进行 分 析 ， 并 将 结果 传递 到 
应 用 层 进 行 展 现 。 为 了 弥补 Hadoop 在 实时 处 理 方面 的 不 足 ， 华 为 还 开发 了 一 个 CEP 





















































(Complex Event Processing， 复 合 事件 处 理 ) 组 件 ， 将 诸如 恶意 呼叫 、 亚 意 短 信 等 需要 复 
杂 逻 辑 判断 和 实时 性 要 求 高 的 分 析 业 务 交 由 CEP 进行 处 理 。 通 过 应 用 Hadoop 技术 构建 
的 云 计 算 信 令 监测 平台 ， 华 为 试图 帮助 电信 和 运营 商 提高 业务 的 精细 化 能 力 和 快速 响应 能 
力 ， 降 低 新 业务 的 开发 成 本 和 研发 周期 ， 并 为 用 户 提供 更 精准 的 个 性 化 服务 。 





























图 10 从 为 基于 Hadoop 的 信 仿 监测 平台 示意 图 


3，Hadoop 社区 活 献 


在 对 Hadoop 技术 的 应 用 和 研究 过 程 中 ”华为 将 积极 获得 的 成 果 贡 献 到 Hadoop 开源 
社区 中 。 在 2011 年 的 统计 中 ， 华 为 共有 8 名 工程 师 被 Hadoop 开源 社区 接纳 为 Contribu- 
tor (捐助 者 )，1 名 工程 师 成 为 HBase 项 目的 全 球 13 名 Committer (委托 人 ) 之 一 。 根 
据 业 界 的 公开 排名 统计 ， 华 为 Hadoop 团队 在 Hadoop 开源 社区 的 贡献 综合 排名 第 七 ， 是 
国内 厂商 中 排名 最 靠 前 的 。 华 为 在 Hadoop 社区 中 贡献 了 超过 160 个 补丁 资源 ， 且 其 中 有 
近 一 半 是 对 Hadoop 核心 组 件 的 改进 。 


Hadoop 在 中 国 移动 的 应 用 


中 国 移动 是 全 球 最 大 的 移动 运营 商 ， 为 超过 6 亿 个 用 户 提供 通信 服 
务 ， 其 业务 覆盖 2G、3G 移动 通信 业务 及 无 限 宽带 接 人 等 多 种 类 别 。 基 
回 9 于 如 此 庞大 的 用 户 规模 ， 中 国 移动 在 日 常 运营 过 程 中 产生 了 大 量 的 数据 ， 
Filadocp 的 其 他 如 呼叫 数据 记录 、 信 令 记 录 、 运 行 日 志 等 。 其 中 仅 呼叫 数据 记录 每 天 生 
企业 级 应 用 】 成 的 数据 量 就 在 8TB 以 上 ， 还 不 包括 其 他 诸如 2G、3G、GPRS 等 业务 的 
信 令 数据 。 近 年 来 ， 随 着 通信 市 场 竞争 的 加 剧 ， 中 国 移动 越 来 越 注重 对 这 些 运营 数据 的 
深度 挖掘 ， 以 进行 网 络 优化 、 市 场 营销 和 服务 提升 。 
























































中 国 移动 自 2007 年 就 开始 确立 了 以 Hadoop 技术 为 基础 的 云 平 台 战 略 计 划 。 云 平台 
的 目标 是 建立 中 国 移动 云 计算 基础 设施 平台 ,满足 中 国 移动 IT 支撑 系统 高 性 能 、 低 成 
本 、 可 扩展 、 高 可 靠 性 的 数据 存储 和 处 理 需 求 ， 并 支持 中 国 移动 为 用 户 提供 互联 网 业务 
和 服务 。 从 2008 年 建立 第 一 个 256 节点 的 Hadoop 集群 开始 ， 中 国 移动 目前 已 经 建成 了 
具有 超过 1000 个 节点 、5000 个 处 理 器 、PB 级 别 的 数据 存储 的 大 规模 计算 平台 ， 用 于 支 
持 中 国 移动 的 用 户 行为 分 析 、 客 户 流失 预测 、 服 务 关联 分 析 、 网 络 服务 质量 分 析 、 过 滤 
垃圾 短 消 息 等 各 项 日 常 运营 工作 。 中 国 移动 云 平台 整体 架构 图 如 图 2. 11 所 示 。 
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基于 HDFS 的 分 布 式 文件 存储 


图 2.11 中 国 移动 云 平台 整体 架构 图 

在 云 平 台中 ， 中 国 移动 主要 在 以 下 两 个 方面 对 Hadoop 进行 了 改进 。 

1，Hadoo 放 组 件 改进 

中 国 移动 对 Hadoop 组 件 进行 了 3 项 主要 改进 ， 下 面 简单 介绍 。 

(1)DataNode 在 线 卷 管理 (DataNode On - line Volume Management) 。 在 Hadoop 开 
源 实现 中 ， 如 果 DataNode 的 磁盘 发 生 故 障 ， 则 这 个 DataNode 将 不 再 工作 。 在 中 国 移动 
的 改进 中 ， 在 存储 空间 足够 的 情况 下 ， 可 以 将 故障 磁盘 上 可 读 的 数据 迁移 到 此 节点 的 其 
他 可 用 磁盘 上 继续 运行 此 DataNode。 

(2)DataNode 集群 。 与 其 他 应 用 者 类 似 ， 中 国 移动 也 认为 ，DataNode 作为 单 点 故障 
对 整体 系统 运行 影响 很 大 ， 因 此 实现 了 一 种 DataNode 集群 机 制 以 提高 系统 的 可 用 性 。 

(3) 实 现 了 一 种 优先 级 管理 的 多 队列 调度 器 ， 以 支持 一 些 需要 优先 处 理 的 关键 任务 的 执行 。 

2. Hadoop 工具 开发 

为 了 提高 Hadoop 部 署 过 程 中 的 工作 效率 ， 中 国 移动 开发 了 一 些 用 于 对 Hadoop 系统 
运行 状况 进行 测试 的 工具 ,包括 HDFS 压力 测试 工具 、MapReduce 任务 执行 性 能 分 析 工 
具 和 MapReduce 任务 提交 的 Web 接口 等 。 

在 上 述 基 础 上 ， 利 用 Hadoop 提供 的 接口 ， 中 国 移动 开发 了 一 系列 经 营 分 析 中 的 关键 
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应 用 ,包括 基于 MapReduce 的 并 行 ETL( 抽 取 - 转 换 -加 载 ) 和 数据 挖掘 工具 ， 基 于 Ma- 
pReduce 的 搜索 引擎 ， 基于 MapReduce、Hive 和 Pig 的 支持 数据 仓库 的 海量 结构 化 数据 
存储 表 HugeTable。 














本 章 小 结 


本 章 介绍 了 Hadoop 的 发 展 历程 ,阐述 了 Hadoop 具有 可 扩充 的 分 布 式 架 构 、 擅 于 处 
理 非 结构 化 数据 、 自 动 化 的 并 行 处 理 机 制 、 可 靠 性 高 和 容错 性 强 、 计 算 靠 近 存 储 、 低 成 
本 计算 和 存储 的 特性 。 经 过 多 年 发 展 ，Hadoop 项 目 已 经 变 得 非常 成 熟 和 完善 ， 包 括 
Common、HDFS、MapReduce、Hive、HBase、Avro、ZooKeeper 等 子 项 目 ， 其 中 
HDFS、MapReduce 和 Common 是 Hadoop 的 三 大 核心 组 件 。Hadoop 目前 在 各 个 领域 得 
到 了 广泛 应 用 ， 如 百度 、 华 为 、 中 国 移动 都 建立 了 自己 的 集群 。 


ss 
仿 关键 术语 


(1) Hadoop (2) 并 行 处 理 机 制 (3) 计算 靠近 存储 
(4)NameNode (5)DataNode (6)YARN 
习 题 
1. 选择 题 
(1)Hadoop 的 应 用 模式 为 ( )。 
A. 单 次 写 单 次 读 了 SN\ 多 次 写 一 次 读 
C. 多 次 后 辑 次 读 了 .一 次 写 多 次 读 
(2) Hadoop 的 基础 (也 是 核心 组 件 ) 包 括 HDFS、MapReduce 和 ( 
A. YARN B. Common 
C. Pig D. Avro 


(3)YARN 的 基本 设计 思想 是 将 MapReduce 中 的 JobTracker 拆 分 为 两 个 独立 的 服务 ， 
分 别 是 ( ) 两 个 部 分 。 
A. ResourceManager 和 ApplicationMaster 
B. ApplicationMaster 和 Container 
C. ResourceManager 和 Container 
D. NodeManager 和 ApplicationMaster 
(4)Hadoop 2.0 将 对 整个 集群 进行 资源 管理 的 功能 从 MapReduce 中 分 离 出 来 ， 形 成 
一 个 独立 的 功能 组 件 ( )， 专 门 对 集群 中 的 CPU、 内 存 等 资源 进行 管理 。 
A. YARN B. Common 
C. Pig D. Avro 
(5) 分 布 式 系统 的 3 个 复杂 特性 是 分 布 式 存储 、 分 布 式 资源 调度 和 ( js 
A. 分 布 式 内 存 B. 分 布 式 编程 











C. 分 布 式 扩展 D. 分 布 式 计算 
(6) 对 Hadoop 系统 进行 设计 时 ， 对 DataNode 进行 的 假设 包括 ( Ys 
A. DataNode 主要 用 来 存储 ， 对 额外 的 开销 并 没有 限制 
B. 对 于 普通 的 硬盘 来 说 ， 任 何 硬 盘 都 可 能 会 失败 
C. 文件 和 数据 块 的 其 中 几 个 副本 都 是 完全 一 致 的 
D. 因为 DataNode 上 一 半 采 用 的 是 普通 硬盘 ， 所 以 平均 每 月 至 少 都 需要 更 换 一 块 


硬盘 

2. 判断 题 
(1) 横 向 扩充 是 指 通过 增加 计算 节点 的 数量 来 实现 的 。 ) 
(2)Hadoop 内 部 处 理 需 人 工分 区 或 优化 。 
(3)Flume 是 基于 Hadoop 的 大 集群 监控 系统 。 ( % 
(4) Hadoop 需要 运行 在 昂贵 的 硬件 设备 集群 上 才能 保证 正常 运行 。 
(5)Hadoop 是 基于 一 个 低 成 本 、 灵 活 和 高 扩展 的 分 布 式 文件 系统 ， 它 能 够 使 非 结 构 
数据 处 理 从 传统 数据 库 笨拙 的 ETL 工作 中 解放 出 来 。 Y\ ( 
(6) 对 Hadoop 而 言 ， 扩 充 是 很 容易 的 工作 ， 即 简章 增加 机 架 ， 并 告诉 系统 用 新 增加 
的 硬件 来 重新 均衡 ， 但 是 Hadoop 不 能 实现 近 线 扩充 ( Y 

3. 简 答 题 


(1)Hadoop 的 优点 有 哪些 ? 

(2)Hadoop 的 基础 组 件 有 哪些 ? 兴 们 岳 功 能 是 什么 ? 
(3)Hadoop 的 其 他 组 件 包 括 哪 些 ? 它们 的 功能 是 化 
(4)Hadoop 上 使 用 YARN 的 步骤 有 哪些 ? 

(5) 简 述 Hive 与 HBase 的 区 别 与 联系 。 

(6) 与 Hadoop 150 相 比 ，Hadoop 2.0, 进 行 巴 哪些 优化 ? 
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第 .了 章 
基于 Hadoop 的 分 布 式 文件 
系统 HDFS 
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知识 要 点 掌握 程度 相关 知识 
HDFS 的 相关 概念 掌握 NameNode、DataNode、 客 户 端的 概念 
HDFS 的 设计 目标 熟悉 设计 目标 及 局 限 福 
HDFS 的 架构 掌握 Mastei/'Slave( 主 /从 ) 架 构 的 运作 流程 
HDFS 的 存储 原理 熟悉 元 余数 据 的 保存 、 数 据 存储 策略 和 数据 的 错误 和 恢复 
HDFS 的 主要 工作 流程 掌握 HDEFS 的 4 个 主要 工作 流程 
HDFS 的 性 能 优化 方法 了 解 性 能 优化 的 4 种 常用 方法 








Hadoop 不 仅仅 是 一 个 能 够 进行 数据 分 析 的 平台 ， 而 且 还 能 够 对 数据 进行 存储 。 目 前 
流行 的 基于 Hadoop 实现 的 专用 存储 系统 称 为 基于 Hadoop 的 HDFS。 大 多 数 情 况 下 ， 
Hadoop MapReduce 应 用 程序 会 访问 HDFS 上 的 数据 ,改善 HDFS 群集 通常 会 直接 改善 
MapReduce 的 性 能 。 此外， 其 他 外 部 框架 也 可 以 基于 他 们 的 任务 负载 来 访问 HDFS 上 的 
数据 。 因此，HDFS 为 Hadoop 生态 系统 提供 了 基本 功能 ， 是 一 个 至 关 重要 的 组 件 。 本 章 
介绍 HDFS 的 体系 架构 、 工 作 流程 和 性 能 优化 的 相关 知识 。 


3.1 HDFS 简介 


Hadoop 的 专用 存储 系统 HDFS 是 一 个 典型 的 主 /从 架构 模型 系统 ， 也 是 管理 大 型 分 
布 式 数据 密集 型 计算 的 可 扩展 的 分 布 式 文件 系统 。HDFS 使 用 廉价 的 商用 硬件 搭建 系统 
并 向 大 量 用 户 提供 可 容错 的 高 性 能 服务 ， 同 时 能 提供 高 吞吐 量 的 数据 访问 。 本 节 主 要 介 
绍 分 布 式 文件 系统 的 基本 概念 及 HDFS 的 相关 概念 、 特 点 和 设计 目标 。 





STR 分 布 式 文件 系统 的 基本 概念 


相对 于 传统 的 本 地 文件 系统 而 言 ， 分 布 式 文件 系统 (Distributed File System，DFS) 
是 一 种 通过 网 络 实现 文件 在 多 台 主 机 上 进行 分 布 式 存储 的 文件 系统 。 分 布 式 文件 系统 的 
设计 一 般 采 用 “客户 端 /服务 器 (Client/Server)” 模 式 ， 客 户 端 以 特定 的 通信 协议 通过 网 
络 与 服务 器 建立 连接 ， 提 出 文件 访问 请 求 ， 客 户 端 和 服务 器 可 以 通过 设置 访问 权 来 限制 
请 求 方 对 底层 数据 存储 块 的 访问 。 目 前 ,得 到 广泛 应 用 的 分 布 式 文件 系统 有 两 种 : 一 种 
是 谷歌 公司 开发 的 分 布 式 文件 系统 GFS; 另 一 种 是 Hadoop 分 布 式 文件 系统 HDFS， 是 针 
对 GFS 的 开源 实现 。 

分 布 式 文件 系统 把 文件 存储 在 多 个 计算 机 节点 上 ,成 千 上 万 的 计算 机 车 点 构成 计算 
机 集群 ， 与 之 前 使 用 多 个 处 理 器 和 专用 高 级 硬件 的 并 行 化 处 理 装 置 不 同 的 是 , 日 前 的 分 
布 式 文件 系统 所 采用 的 计算 机 集群 都 是 由 普通 硬件 构成 的 ， 这 就 大 大 降低 了 硬件 方面 的 
开销 。 计 算 机 集群 的 基本 架构 如 图 3. 1 所 示 ， 集群 中 的 计算 机 节点 存放 在 机 架 (Rack) 上 ， 
每 个 机 架 可 以 存放 8 一 64 个 节点 ,同一 机 架 上 的 不 同 节点 之 间 通 过 网 络 互 连 ， 多 个 不 同 机 
架 之 间 采 用 另 一 级 网 络 或 交换 机 互 连 。 














图 3.1 计算 机 集群 的 基本 架构 


与 普通 文件 系统 类 似 ， 分 布 式 文件 系统 也 采用 了 块 的 概念 文件 被 分 成 若干 块 进行 
存储 ， 块 是 数据 读 写 的 基本 单元 ， 只 不 过 分 布 式 文件 系统 的 块 要 比 操作 系统 中 的 块 大 很 
多 , 例如，HDFS 默认 的 一 个 块 的 大 小 是 64MB。 与 普通 文件 不 同 的 是 ， 在 分 布 式 文件 系 
统 中 ， 如 果 一 个 文件 小 于 一 个 数据 块 的 大 小 ， Rh 分 布 
i St 节点 构成 的 ， 这 些 节点 分 为 两 类 ， 一 
类 称 为 主 节点 或 NameNode， 男 一 类 称 为 从 节点 或 DataNode。 Nn eno 负责 文件 和 目 
录 的 创建 、 出 除 和 进行 二 全 名 等 强 作 ， 同时 管理 DataNode 和 文件 块 的 映射 关系 。 因 此 ， 
客户 端 只 有 访问 NameNode 才能 找到 请 求 的 文件 块 所 在 的 位 置 ， 进 而 到 相应 位 置 读 取 所 
需 文 件 块 。DataNode 负责 数据 的 存储 和 读 取 ， 在 存储 时 ， 由 NameNode 分 配 存 储 ， 然 后 


























由 客户 端 把 数据 直接 写 入 相应 的 DataNode; 在 读 取 时 , 客户 端 从 NameNode 获得 
DataNode 和 文件 块 的 映射 关系 ， 然 后 就 可 以 到 相应 位 置 访问 文件 块 。DataNode 也 要 根据 
NameNode 的 命令 创建 、 删 除数 据 块 和 宛 余 复 制 。 

计算 机 集群 中 的 节点 可 能 发 生 故障 ， 因 此 ， 为 了 保证 数据 的 完整 性 ， 分 布 式 文件 系统 采 
同城 多 副本 存储 。 文 件 块 会 被 复制 为 多 个 副本 ， 存 储 在 不 同 的 节点 上 ， 而 且 ， 存 储 同 一 文 
# 块 的 不 同 副 本 的 各 个 节点 ， 会 分 布 在 不 同 的 机 架 上 。 这 样 ， 在 单个 节点 出 现 故障 时 ， 就 可 
以 快速 调用 副本 重启 单个 节点 上 的 计算 过 程 ， 而 不 用 重启 整个 计算 过 程 ， 整 个 机 架 出 现 故障 
也 不 会 丢失 所 有 文件 块 。 文件 块 的 大 小 和 副本 个 数 通 常 可 以 由 用 户 指定 。 
分 布 式 文件 系统 是 针对 大 规模 数据 存储 而 设计 的 ,主要 用 于 处 理 大 规模 文件 ， 如 TB 
级 文件 ， 处 理 过 小 的 文件 不 仅 无 法 充分 发 挥 其 优势 ， 而 且 会 严重 影响 到 系统 的 扩展 和 
性 能 。 


< HDFs 的 基本 概念 Ee KS 


在 学 习 HDFS 之 前 ,首先 要 了 解 一 些 相关 的 最 基础 的 概念 ,包括 NameNode、Data- 
ode、 客 户 端 、 块 及 通信 协议 的 概念 。 
1，NameNode 


HDFS 系统 包括 一 个 NameNode 组 件 ， 主 要 负责 HDFS 文件 系统 的 管理 工作 ， 具 体 
包括 名 称 空间 (Namespace) 管 理 、 文 件 块 管理 。NameNode 提供 的 是 始终 被 动 接受 服务 的 
展 务 ， 主 要 有 以 下 三 类 协议 接口 ; 

(1)ClientProtocol 接口 提供 给 客户 端 ， 用 于 访问 NameNode。 它 包含 文件 的 HDFS 
功能 。 和 GFS 一 样 ，HDFS 不 提供 POSIX(Portable Operating System Interface， 可 移植 
操作 系统 接口 ) 形 式 的 接口 ， 而 使 用 了 一 个 私有 接口 。 

(2)DataNodeProtocol 接口 ， 用 于 DataNode 向 NameNode 通信 。 

(3)NameNodeProtocol 接口 ， 用 于 从 NameNode 到 NameNode 的 通信 。 

在 HDFS 内 部 ， 一 个 文件 被 分 成 一 个 或 多 个 块 ， 这 些 块 存储 在 DataNode 集合 里 ， 
ameNode 负责 管理 文件 块 的 所 有 元 数据 信息 ， 这 些 元 数据 信息 主要 为 “文件 名 -数据 块 ” 
映射 和 “数据 块 - DataNode 列表 ”映射 。 其 中 “文件 名 -数据 块 ” 映 射 保存 在 磁盘 上 进行 
持久 化 存储 ， 需 要 注意 的 是 NameNode 上 不 保存 “数据 块 - DataNode 列表 ”有 映射， 该 列表 是 
通过 DataNode 上 报 给 NameNode 建立 起 来 的 。NameNode 执行 文件 系统 的 名 称 空间 操作 ， 
例如 打开 、 关 闭 、 重 命名 文件 和 目录 ， 同 时 决定 文件 数据 块 到 具体 NameNode 的 映射 。 

和 NameNode 相关 的 另 一 个 概念 是 Secondary NameNode( 第 二 主 节点 )， 它 主要 是 定 
时 对 NameNode 的 数据 简介 进行 备份 ， 这 样 可 以 尽量 降低 NameNode 崩溃 后 数据 丢失 的 
风险 ， 它 所 做 的 工作 就 是 从 NameNode 获得 fsimage( 镜 像 文件 ) 和 edits( 日 志文 件 )， 再 把 
两 者 重新 合并 后 发 给 NameNode， 这样 既 可 以 减轻 NameNode 的 负担 又 能 安全 地 备份 ， 
一 旦 HDFS 的 Master 架构 失效 ， 就 可 以 借助 Secondary NameNode 进行 数据 恢复 。Nam- 
eNode 和 Secondary NameNode 之 间 的 通信 示意 图 如 图 3. 2 所 示 。 

NameNode 和 Secondary NameNode 之 间 数 据 的 通信 使 用 的 是 HTTP 协议 ，Seconda- 
ry NameNode 定期 合并 fsimage 和 edits 日 志 ， 并 将 edits 日 志文 件 大 小 控制 在 一 个 限度 
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图 3.2 NameNode 和 Secondary NameNode 之 间 的 通信 示意 图 





下 。 因 为 内 存 需求 和 NameNode 在 一 个 数量 级 上 ， 所 以 通常 Secondary NameNode 和 Nam- 
eNode 运行 在 不 同 的 机 器 上 。Secondary NameNode 通过 bin/start- dfs. sh 脚本 在 conf/ 
masters 命令 中 指定 的 节 动 。 

NameNode 维护 系统 的 名 称 空间 、 它 将 记录 名 称 空间 内 的 任何 改动 或 者 名 称 空间 本 身 
的 属性 改动 。HDFS 复制 文件 块 以 便 容错 、 应 用 和 序 可 以 在 一 个 文件 创建 时 指定 该 文件 
的 副本 数 ， 这 个 数量 可 以 在 以 后 随时 更 改 ， 这 个 份 数 称 为 复制 因子 。NameNode 负责 所 有 
文件 块 复制 。 


2，DataNode 


NameNode 是 -HDES 的 管理 节点 ， 用 于 存储 并 管理 元 数据 ， 而 DataNode 就 是 负责 
存储 数据 的 组 件 ， 一 个 数据 块 会 在 多 个 DataNode 中 进行 元 余 备 份 ， 而 一 个 DataNode 对 
于 一 个 块 最 多 只 包含 一 个 备份 。 所 以 ,可 以 简单 地 认为 DataNode 上 存储 了 数据 块 ID 和 
数据 块 内 容 ， 以 及 它们 的 映射 关系 。 一 个 HDFS 集群 可 能 包含 上 千 个 DataNode， 这 些 
DataNode 定时 和 NameNode 进行 通信 ， 接收 NameNode 的 指令 。 为 了 减轻 NameNode 的 
负担 ，NameNode 上 并 不 永久 保存 DataNode 上 有 哪些 数据 块 的 信息 ， 而 通过 DataNode 
启动 时 的 上 报 来 更 新 NameNode 上 的 映射 表 。DataNode 在 和 NameNode 建立 连接 后 ， 
就 会 不 间断 地 和 NameNode 保持 联系 ,反馈 信息 中 也 包含 NameNode 对 DataNode 的 一 
些 命 令 ， 如 删除 数据 库 或 者 把 数据 库 复 制 到 另 一 个 DataNode。 应 该 注意 的 是 ，Name- 
Node 不 会 发 起 到 DataNode 的 请 求 ， 在 这 个 通信 过 程 中 ,它们 严格 遵守 客户 端 /服务 器 
架构 规则 。 

当然 DataNode 也 作为 服务 器 接受 来 自 客户 端的 访问 ， 处 理 数据 块 读 / 写 请 求 。Data- 
Node 之 间 还 会 相互 通信 ， 执 行 数据 块 复制 任务 。 同时， 在 客户 端 执行 写 操作 的 时 候 ， 
DataNode 之 间 需 要 相互 配合 ， 以 保证 写 操作 的 一 致 性 。 

3. 客户 端 

访问 HDFS 的 程序 或 HDFS shell 命令 都 可 以 称 为 HDFS 的 客户 端 ， 在 HDFS 的 客 

















户 端 中 至 少 需要 指定 HDFS 的 集群 设置 中 的 NameNode 地 址 及 端口 号 信息 ， 或 者 通过 配 
置 HDFS 的 core- site. xml 文件 来 指定 。 一 般 可 以 把 客户 端 和 HDFS 节点 服务 器 放 在 同一 
台 机 器 上 ， 但 前 提 是 机 器 资源 允许 ， 并 且 能 够 接受 不 可 靠 的 应 用 程序 所 带 来 的 稳定 性 降 
低 的 风险 。 





4. 块 
块 (Block) 是 文件 系统 中 一 个 很 重要 的 概念 在 Linux 系统 中 有 一 个 数据 块 的 概 
念 。 数 据 块 是 文件 系统 读 写 的 最 小 数据 单元 。 一 般 在 文件 系统 中 数据 块 的 大 小 是 


512Bytes， 一 个 文件 所 占 的 大 小 就 是 数据 块 大 小 的 整数 倍 ， 对 于 用 户 来 讲 对 文件 的 访问 
/ 存 取 都 是 透明 的 ， 同 样 系统 管理 员 可 以 利用 系统 本 身 的 命令 对 数据 块 进行 操作 。 对 于 
文件 系统 来 讲 ，HDFS 也 有 一 个 块 的 概念 ,不 同 之 处 在 于 HDFS 为 了 满足 大 数据 的 效 
率 和 整个 集群 的 吞吐 量 选择 了 更 大 的 数值 ， 默 认为 64MB。 和 一 般 文件 系统 不 同 的 是 : 
虽然 块 设置 得 比较 大 ,但 是 当 一 个 文件 的 大 小 小 于 HDEFS. 的 块 时 ， 实 际 存储 所 占 的 大 
小 并 不 占用 一 个 块 的 大 小 。 

客户 端 在 读 取 HDFS 上 的 一 个 文件 时 就 以 块 为 基本 的 数据 单元 。 以 一 次 简单 读 取 来 
举例 。 首 先 ， 客 户 端 将 文件 名 和 程序 指定 的 字 节 偏 移 ， 根 据 固定 的 块 大 小 ， 转 换 成 文件 
的 块 索引 。 然 后 ， 客 户 端 将 文件 名 和 块 索引 发 送 给 MasterNode，MasterNode 将 相应 的 块 
标识 和 副本 的 位 置信 息 返 回 给 客户 端 ,客户 端 用 文件 名 和 块 索引 作为 Key( 码 / 键 ) 缓 存 这 
些 信息 ， 之 后 客户 端 发 送 请 求 到 其 中 一 企 副 本 .一般 会 选择 最 近 的 。 请 求 信息 包含 块 标 
识 和 字 节 范围 。 在 对 这 个 块 的 后 续 读 取 操作 中 ， 客 户 端 不 必 再 和 MasterNode 通信 了 ， 除 
非 缓存 的 元 数据 信和 新 打开 。 客 户 端 通常 会 在 一 次 请 求 中 查询 多 个 块 信 
息 。 在 实际 应 用 中 ,这 些 额外 信息 在 不 付出 任何 代价 的 情况 下 ， 避 免 了 客户 端 和 Master- 
Node 未 来 可 能 发 生 的 几 次 通信 。 

5, 通信 协议 

HDFS 通信 协议 都 是 构建 于 TCP/IP 之 上 的 。HDFS 客户 端 连接 到 NameNode 上 打 
开 的 一 个 TCP(Transmission Control Protocol， 传 输 控 制 协议 ) 端 口 ， 然 后 使 用 一 个 基于 
RPC(Remote Procedure Call， 远 程 过 程 调 用 ) 的 专 有 协议 与 NameNode 通信 。DataNode 
使 个 基于 块 的 专 有 协议 与 NameNode 通信 。 

DataNode 持续 循环 询问 NameNode 的 指令 ，NameNode 不 能 直接 连接 到 DataNode， 
它 只 是 从 DataNode 调用 的 函数 返回 值 。 每 个 DataNode 都 维护 一 个 开放 的 服务 器 套 接 字 ， 
以 便 客户 端 或 其 他 DataNode 能 够 读 / 写 数据 。NameNode 知道 这 个 服务 器 的 主机 或 端口 ， 
将 信息 提供 给 有 关 客 户 端 或 其 他 DataNode。 


HDFS 的 设计 目标 及 局 限 性 


HDFS 的 设计 目标 主要 包括 透明 性 、 并 发 控制 、 可 伸缩 性 、 容 错 以 及 安全 需求 等 。 
但 是 ,在 具体 实现 中 ,不 同 产 品 实现 的 级 别 和 方式 都 有 所 不 同 。HDFS 在 设计 需求 指标 
方面 的 实现 情况 如 表 3-1 所 示 。 




































































































表 3-1 HDFS 在 设计 需求 指标 方面 的 实现 情况 
设计 需求 指标 含 党 HDFS 
具备 访问 透明 性 、 位 置 透明 性 、 性 能 和 伸缩 透明 性 。 
访问 透明 性 是 指 用 户 不 需要 专门 区 分 哪些 是 本 地 文件 
及 哪些 是 远程 文件 ， 用 户 能 够 通过 相同 的 操作 来 访问 
本 地 文件 和 远程 文件 资源 。 位 置 透明 性 是 指 在 不 改变 | ”只 能 提供 一 定 程度 的 访 
通明 内 ”| 路 径 名 的 前 提 下 ， 不 管 文件 副本 数量 和 实际 存储 位 置 | 问 透明 性 ， 完 全 支持 位 轩 
发 生 何 种 变化 ， 对 用 户 而 言 都 是 透明 的 ， 用 户 不 会 感 | 透明 性 、 性 能 和 伸缩 透 
受到 这 种 变化 ， 只 需要 使 用 相同 的 路 径 名 就 可 以 始终 | 明 性 
访问 同一 个 文件 。 性 能 和 伸缩 透明 性 是 指 系统 中 节点 
的 增加 或 减少 以 及 性 能 的 变化 对 用 户 而 言 是 透明 的 。 
用 户 感受 不 到 什么 时 候 一 个 节点 加 入 或 退出 了 
虹 ee 总 | 机制 非常 简单 ， 在 任何 
人 ete a 和 间 扣 只 计 肥 涉 浊 记 
2 写 信 某 个 文件 
文件 复制 一 个 文件 可 以 在 不 同位 置 拥有 多 个 副本 采用 多 副本 机 制 
硬件 和 操作 可 以 在 不 同 的 操作 系统 和 计算 机 上 实现 同样 的 客户 采用 Java 语言 开发 ， 
系统 的 异 构 性 | 端 和 服务 器 端 程序 具有 很 好 的 跨 平台 能 力 
建立 在 大 规模 廉价 机 器 
可 伸缩 性 支持 节点 的 动态 加 六 或 进出 上 的 分 布 式 文件 系统 集 
群 ， 具 有 很 好 的 伸缩 性 
a 保证 文件 服务 在 客户 端 或 者 服务 器 出 现 问题 的 时 候 | ”具有 多 副本 机 制 和 故障 
能 正常 使 用 自动 检测 、 恢 复 机 制 
安全 保障 系统 的 安全 性 安全 性 较 弱 








HDFS 实现 了 GFS 的 基本 思想 ,支持 流 数据 读 取 和 处 理 超大 规模 文件 ， 并 能 够 运行 
在 由 廉价 的 普通 机 器 组 成 的 集群 上 ， 这 主要 得 益 于 它 在 设计 之 初 就 充分 考虑 了 实际 应 用 
环境 的 特点 ， 即 硬件 出 错 在 普通 服务 器 集群 中 是 一 种 常态 ， 而 不 是 异常 。 因 此 ，HDFS 
在 设计 上 采取 了 多 种 机 制 保证 在 硬件 出 错 的 环境 中 实现 数据 的 完整 性 .总 而 言 之，HDFS 
应 实现 表 3-2 所 列 的 5 个 目标 。 


表 3-2 HDFS 的 5 个 目标 














目 标 说 有明 
兼容 廉价 的 在 成 百 上 千 台 廉价 服务 器 中 存储 数据 ， 常 会 出 现 节点 失效 的 情况 ， 因 此 HDFS 设计 
重信 广 从 了 快速 检测 硬件 故障 和 进行 自动 回复 的 机 制 ， 可 以 实现 持续 监视 、 错 误 检查 、 容 错 处 理 
和 自动 恢复 功能 ， 从 而 使 得 在 硬件 出 错 的 情况 下 也 能 实现 数据 的 完整 性 
普通 文件 系统 主要 用 于 随机 读 写 以 及 与 用 户 进行 交互 ,而 HDFS 则 是 为 了 满足 批量 
流 数 据 读 写 | 数据 处 理 的 要 求 而 设计 的 - 因此， 为 了 提高 数据 吞吐 率 ，HDFS 放松 了 一 些 POSIX 的 
要 求 ， 从 而 能 以 流 式 方式 来 访问 文件 系统 数据 














续 表 





目 标 说 明 

HDFS 中 的 文件 通常 可 以 达到 GB 甚至 TB 级 别 . 一 个 数 百 台 机 器 组 成 的 集群 里 面 可 
以 支持 千 万 级 别 类 似 的 文件 

简单 的 HDFS 采用 了 “一 次 写 人 、 多 次 读 取 ”的 简单 文件 模型 文件 一 旦 完成 写 人 ， 关 闭 后 
文件 模型 | 就 无 法 再 次 写 人 ， 只 能 被 读 取 


强大 的 跨 HDFS 是 采用 Java 语言 实现 的 ， 具 有 很 好 的 跨 平 台 兼 容 性 ,支持 JVM (Java Virtual 
平台 兼容 性 | Machine，Java 虚拟 机 ) 的 机 器 都 可 以 运行 HDFS 




















HDFS 的 特殊 设计 目标 ， 在 实现 上 述 优良 特性 的 同时 ， 也 使 得 自身 具有 一 些 应 用 局 
限 性 ， 主 要 表现 在 以 下 3 个 方面 。 
(1) 不 适合 低 延 迟 数 据 访 问 。HDFS 主要 是 面向 大 规模 数据 批量 处 理 而 设计 的 ,采用 
流 式 数据 读 取 ， 具 有 很 高 的 数据 吞吐 率 ， 但 是 这 也 意味 着 较 高 的 数据 延迟 。 因 此 ，HDFS 
不 适合 用 在 需要 较 低 延迟 (如 数 十 毫秒 ) 的 应 用 场合 。 对 于 低 延 时 要 求 的 应 用 程序 而 言 ， 
HBase 是 一 个 更 好 的 选择 。 
国 尖 加 (2) 无 法 高 效 存储 大 量 小 文件 小 奖 件 是 指 文件 的 大 小 小 于 一 个 块 的 文 
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件 ， 过 多 小 文件 会 给 系统 扩展 性 和 性 能 带 来 诸多 问题 。 首 先 ，HDFS 采用 
加 NameNode 来 管理 文件 系统 的 元 数据 这 些 元 数据 被 保存 在 内 存 中 ， 从 而 
[HDFS 中 次 音 使 客户 端 可 以 快速 获取 文件 的 实际 存储 位 置 。 通常， 每 个 文件 、 目 录 或 块 
小 文件 合并 与 大 约 占 150 字 节 ， 如 果 有 1000 万 个 文件 :> 每 个 文件 对 应 一 个 块 ， 那 么 ， 
预 取 优 化 方法 NameNode 至 少 要 消耗 3GB 内 存 来 保存 这 些 元 数据 信息 。 很 显然 ， 这 时 的 
的 研究 ]】 ”元 数据 检索 的 效率 就 比较 低 了 ,需要 化 费 较 多 的 时 间 来 找到 一 个 文件 的 实 
际 存 储 位 置 。 而 且 % 如 果 继 续 扩展 到 数 十 亿 个 文件 时 ，NameNode 保存 元 数据 所 需要 的 内 
存 空间 就 会 大 大 增加 以 现 有 的 硬件 水 平 w 是 无 法 在 内 存 中 保存 如 此 大 其 的 元 数据 的 。 
其 次 ， 用 MapReduce 处 理 大 量 小 文件 时 ,会 产生 过 多 的 Map 任务 ,线程 管理 开销 也 会 大 
大 增加 ， 因 此 ， 处 理 大 量 小 文件 的 速度 远 远 低 于 处 理 同 等 大 小 的 大 文件 的 速度 。 最 后 ， 
访问 大 量 小 文件 的 速度 远 远 低 于 访问 几 个 大 文件 的 速度 ， 访 问 大 量 小 文件 ， 需 要 不 断 从 
一 个 DataNode 跳 到 另 一 个 DataNode， 严 重 影响 性 能 。 
(3) 不 支持 多 用 户 写 人 及 任意 修改 文件 。HDFS 只 允许 一 个 文件 有 一 个 写 人 者 ， 不 允许 多 
个 用 户 对 同一 个 文件 执行 写 操作 ， 而 且 只 允许 对 文件 执行 追加 操作 ， 不 能 执行 随机 写 操作 。 
< 量 怕 甬 ” HDFS 的 可 靠 性 措施 
HDFS 设计 的 主要 目标 之 一 就 是 在 故障 情况 下 也 能 保证 数据 存储 的 可 靠 性 。HDFS 
具备 了 完善 的 元 余 备 份 和 恢复 机 制 ， 可 以 实现 在 集群 中 可 靠 地 存储 海量 文件 。 
1. 机 柜 意识 


通常 ， 大 型 HDFS 集群 跨 多 个 安装 点 (机 柜 ) 排 列 。 一 个 安装 点 的 不 同 节点 之 间 的 网 
络 流量 通常 比 跨 安 装点 的 网 络 流量 更 高 效 。 一 个 NameNode 尽量 将 一 个 块 的 多 个 副本 放 
壮 到 多 个 安装 点 上 以 提高 容错 能 力 。HDFS 允许 管理 员 决 定 一 个 节点 属于 哪个 安装 点 。 
































因此 ， 每 个 节点 都 知道 它 的 机 柜 ID， 也 就 是 说 ， 它 具有 机 柜 意识 。 

HDFS 使 用 一 个 智能 副本 放置 模型 来 提高 可 靠 性 和 性 能 。 优 化 副本 放置 使 得 HDFS 
不 同 于 其 他 大 多 数 分 布 式 文件 系统 ， 而 一 个 高 效 使 用 网 络 带宽 的 、 具 有 机 柜 意 识 的 副本 
放置 策略 将 进一步 促进 这 种 优化 。 

大 型 HDFS 环境 通常 跨 多 个 计算 机 安装 点 运行 。 不 同安 装点 中 的 两 个 DataNode 之 间 
的 通信 通常 比 同一 个 安装 点 中 的 DataNode 之 间 的 通信 缓慢 。 因 此 ，NameNode 试图 优化 
DataNode 之 间 的 通信 。NameNode 通过 DataNode 的 机 柜 ID 识别 它们 的 位 置 。 

2. 宛 余 备份 

HDFS 被 设计 成 在 一 个 大 集群 里 跨 机 器 、 可 靠 存储 的 非常 大 的 文件 系统 。 每 个 文件 
都 存储 为 一 系列 的 数据 块 ， 默 认 块 大 小 为 64MB。 同 一 文件 中 除 最 后 一 块 以 外 的 所 有 块 大 
小 都 是 相同 的 。 文 件 的 块 都 通过 复制 来 保证 容错 。 每 个 文件 的 块 的 大 小 和 复制 因子 都 是 
可 以 配置 的 。 程 序 可 以 指定 文件 复制 的 复制 因子 ， 可 以 在 文件 创建 时 指定 ， 也 可 以 在 以 
后 指定 。HDFS 的 文件 都 是 一 次 性 写 入 的 ， 并 全 信和 几时 供 间 民有 二 个 号 用 人 
DataNode 使 用 本 地 文件 系统 来 存储 HDFS 的 数据 ,但 是 它 对 HDFS 的 文件 一 无 所 知 ， 

是 用 一 个 个 文件 存储 HDFS 的 每 个 数据 块 。 当 DataNode 启动 的 时 候 ， 人 万 地 人 
0 产生 一 份 HDFS 数据 块 和 本 地 文件 对 应 关系 的 列表 ， 并 把 这 个 报告 发 给 NameNo- 
e， 这 就 是 块 报告 (BlockReport) ， 块 报告 包括 DataNode 上 所 有 块 的 列表 。 

3, 副本 存放 

HDFS 集群 一 般 运 行 在 多 个 机 架 上 ， 不同 机 架 上 机 器 的 通信 需要 通过 交换 机 。 通 常情 况 
下 ， 副 本 的 存放 策略 很 关键 ， 机 架 内 节点 之 间 的 带宽 比 跨 机 架 节点 之 间 的 带宽 要 大 ， 它 能 影 
响 HDFS 的 可 靠 性 和 性 能 ;HDFS 采用 机 架 感 知 CRack-aware) 策 略 来 改进 数据 的 可 靠 性 、 可 
用 性 和 网 络 带 宽 的 利用 率 。 通 过 机 架 感 知 , NameNode 可 以 确定 每 个 DataNode 所 属 的 机 架 
ID。 一 般 情况 下 ， 当 复制 因子 是 3 的 时 候 ， 0 将 一 个 副本 放 在 同一 机 架 上 
的 节点 ， 另 一 个 副本 存放 在 本 地 机 架 上 的 节点 ， 最 后 一 个 副本 放 在 不 同 机 架 上 的 节点 。 机 架 
的 错误 远 比 节点 的 错误 少 ， 入 个 过 也 可 以 态 由 和 让 人 第 条 惧 肛 收据 天光， 不 会 影响 到 数据 的 
可 靠 性 和 可 用 性 ， 同 时 又 能 保证 性 能 。 目 前 ， 副 本 存放 策略 还 正在 开发 中 。 

4，HDFS 心跳 


有 几 种 情况 可 能 会 导致 NameNode 和 DataNode 之 间 的 连通 性 丧失 。 因 此 ， 每 个 Da- 
taNode 都 向 它 的 NameNode 定期 发 送 心跳 消息 (Heartbeat Message) ， 如 果 NameNode 不 
能 接收 心跳 消息 ， 就 表明 连通 性 丧失 。NameNode 将 不 能 响应 心跳 消息 的 DataNode 标记 
为 “ 死 节点 "”， 并 不 再 向 它们 发 送 请 求 。 存 储 在 一 个 死 节 点 上 的 数据 不 再 对 那个 节点 的 
HDFS 客户 端 可 用 ， 该 节点 将 从 系统 有 效 地 移 除 。 如 果 一 个 节点 的 死 导致 数据 块 的 复制 
因子 降 至 最 小 值 之 下 ，NameNode 将 启动 附加 复制 ， 将 复制 因子 带 回 正常 状态 。 

5, 安全 模式 

HDFS 启动 的 时 候 ，NameNode 进入 一 个 特殊 的 状态 ， 称 为 安全 模式 ， et 
数据 块 的 复制 。NameNode 会 收 到 DataNode 的 心跳 和 数据 块 报告 。 数 据 块 报告 包括 一 






















































































DataNode 所 拥有 的 数据 块 列 表 ， 每 个 数据 块 里 都 有 指定 数目 的 复制 品 。 当 某 个 NameNo- 
de 登记 数据 复制 品 达到 最 小 数目 后 ， 数 据 块 就 被 认为 是 安全 复制 了 。 在 一 定 百分比 (可 配 
置 ) 的 数据 块 被 NameNode 监测 确定 是 安全 登记 之 后 ，NameNode 在 登记 后 (加 上 附加 的 
30 秒 ) 退 出 安全 模式 。 当 监测 到 副本 数 不 足 的 数据 块 时 ， 该 块 会 被 复制 到 其 他 DataNode， 
以 达到 最 小 副本 数 。 

6. 数据 完成 性 检测 

从 DataNode 获取 的 数据 块 有 可 能 是 损坏 的 ,为 了 解决 此 类 问题 的 发 生 ，HDFS 客户 
端 软 件 实现 了 对 HDFS 文件 内 容 的 校 验 和 检查 ,在 创建 HDFS 文件 时 ,会 计算 每 个 数据 
块 的 检验 和 ， 并 将 检验 和 作为 一 个 单独 的 隐藏 文件 保存 在 命名 空间 下 。 当 客户 端 获取 文 
件 后 ， 会 检查 各 个 DataNode 取出 的 数据 和 相应 的 校 验 和 是 否 匹 配 。 如 果 不 匹 配 ， 那 么 客 
户 就 会 选择 从 其 他 有 复制 品 的 DataNode 取 一 份 数据 。 

7. 空间 回收 

文件 被 用 户 或 应 用 程序 删除 时 ,并 不 是 立即 就 从 -HDFS 中 移 走 ， 而 是 先 把 它 移 动 到 
Trash (垃圾 ) 目 录 里 。 只 要 还 在 这 个 目录 里 ,文件 就 可 以 被 迅速 恢复 。 文 件 在 这 个 目录 里 的 
时 间 是 可 以 配置 的 ， 超 出 了 这 个 时 间 ， 系 统 就 会 把 它 从 命名 空间 中 删除 。 文 件 的 删除 操作 会 
引起 相应 数据 块 的 存储 空间 释放 ， 但 是 从 用 户 执行 删除 操作 到 从 系统 中 看 到 剩余 空间 的 增加 
可 能 会 有 时 间 延 迟 。 只 要 文件 还 在 Trash 目录 里 ， 用 户 就 可 以 取消 删除 操作 。 当 用 户 想 取消 
时 ， 可 以 浏览 这 个 目录 并 取 回 文件 当 这 个 目录 只 保存 被 删除 文件 的 最 后 副本 。 这 个 目录 还 有 
-个 特性 ， 就 是 HDFS 会 使 用 特殊 政策 自动 删除 文件 。 当 前 黑 认 的 策略 是 : 文件 超过 6 小 时 
后 会 自动 删除 。 在 未 来 版 本 里 ;这 个 策略 可 以 通过 定义 良好 的 接口 来 配置 。 

8. 元 数据 磁盘 失效 


映像 文件 和 事务 昌 志 是 HDFS 的 核心 数据 结构 。 如 果 这 些 文件 损坏 ,将 会 导致 
HDFS 不 可 用 。 NameNode 可 以 配置 为 支持 维护 映像 文件 和 事务 日 志 的 多 个 副本 ,任何 映 
像 文件 或 事务 日 志 的 修改 都 将 同步 到 它们 的 副本 上 。 这 样 会 降低 NameNode 处 理 命名 空 
间 事 务 的 速度 ， 然 而 这 个 代价 是 可 以 接受 的 ， 因 为 HDFS 是 数据 密集 而 非 元 数据 密集 的 。 
当 NameNode 重新 启动 时 ， 总 是 选择 最 新 的 一 致 性 映像 文件 和 事务 日 志 。 在 HDFS 集群 
中 NameNode 是 单 点 存在 的 ， 如 果 它 出 现 故障 ， 必 须 手 动 干 预 。 目 前 ，HDFS 还 不 支持 
自动 重启 或 切换 到 另外 的 NameNode。 

9. 快照 


快照 支持 存储 某 一 点 时 间 的 数据 复制 。 这 个 特性 的 一 个 应 用 就 是 把 损坏 的 HDFS 回 
深 到 以 前 某 个 正常 的 时 间 点 。 











3.2 HDFS 的 架构 、 存储 原理 及 主要 工作 流程 


HDFS 采用 了 Master/Slave 结构 模型 。 从 组 织 结构 上 来 说 ，HDFS 最 重要 的 两 个 组 
件 是 作为 Master 的 NameNode 和 作为 Slave 的 DataNode。 本 节 主 要 介绍 HDFS 的 架构 、 











存储 原理 及 主要 工作 流程 。 
< 蝇 ' 轧 天 上 @ HDFS 的 架构 


相 比 基于 P2P 模型 的 分 布 式 文件 系统 架构 ，HDFS 采用 的 是 基于 Master/ 大 | 建 音 
Slave 架构 模型 的 分 布 式 文件 系统 ， 一 个 HDFS 集群 包含 一 个 单独 的 Master- HDFs] 
Node 和 多 个 SlaveNode 服务 器 。 这 里 的 一 个 单独 的 MasterNode 的 含义 是 HDFS 系统 中 只 存 
在 一 个 迪 辑 上 的 Master 组 件 。 一 个 逻辑 的 MasterNode 可 以 包括 两 台 物 理 主机 ， 即 两 台 Mas- 
ter 服务 器 、 多 台 Slave 服务 器 。 一 台 Master 服务 器 组 成 单 NameNode 集群 ， 两 台 Master 服 
务 器 组 成 双 NameNode 集群 并 且 同 时 被 多 个 客户 端 访问 ， 所 有 的 这 些 机 器 通常 都 是 普通 的 
Linux 机 器 ， 运 行 着 用 户 级 别 的 服务 进程 。HDFS 的 架构 示意 图 如 图 3. 3 所 示 。 




















图 3.3 HDES 的 架构 示意 图 


图 3. 3 展示 了 HDFS 的 NameNode、DataNode 以 及 客户 端 之 间 的 存 取 
访问 关系 ， 单 一 节点 的 NameNode 大 大 简化 了 系统 的 架构 。NameNode 负责 
保存 和 管理 所 有 的 HDFS 元 数据 ， 用 户 数据 本 就 不 需要 通过 NameNode， 也 
就 是 说 ,文件 数据 的 读 写 是 直接 在 DataNode 上 进行 的 。HDFS 存储 的 文件 
都 被 分 割 成 固定 大 小 的 块 ， 在 创建 块 时 。 NameNode 服务 器 会 给 每 个 块 分 配 HDFS 的 其 奸 ] 

-个 唯一 不 变 的 块 表示 。DataNode 服务 器 把 块 以 Linux 文件 的 形式 保存 在 本 地 硬盘 上 ， 并 
且 根 据 指定 的 块 表示 和 字 节 范围 来 读 写 块 数据 。 处 于 可 靠 性 的 考虑 ， 每 个 块 都 会 复制 到 多 个 
DataNode 服务 器 上 。 在 默认 情况 下 ，HDFS 使 用 3 个 元 余 备份 ， 当 然 用 户 可 以 为 不 同 的 文 
件 命 名 空间 设 定 不 同 的 复制 因子 数 。NameNode 使 信息 周期 性 地 鼓励 块 的 回收 ,以 及 块 在 
DataNode 服务 器 之 间 的 迁移 。NameNode 使 信息 周期 性 地 和 每 个 DataNode 服务 器 通信 ， 发 
送 指令 到 各 个 DataNode 服务 器 并 接受 DataNode 中 的 块 状态 信息 。 

HDFS 客户 端 代码 以 库 的 形式 被 链接 到 客户 程序 中 。 在 客户 端 代码 中 需要 实现 HDFS 
























































文件 系统 的 API 接口 函数 ， 应 用 程序 与 NameNode 和 DataNode 服务 器 通信 ， 以 及 对 数 
据 进 行 读 写 操作 。 客 户 端 和 NameNode 的 通信 只 获取 元 数据 ， 所 有 的 数据 操作 都 是 由 客 
户 端 直接 和 DataNode 进行 交互 的 。HDFS 不 提供 POSIX( 可 移植 操作 系统 接口 ) 的 API， 
因此 ，HDFS API 调用 不 需要 深入 到 Linux VNode( 虚 拟 节点 ) 级 别 。 无论 是 客户 端 还 是 
DataNode 服务 器 ， 都 不 需要 缓存 文件 数据 。 客 户 端 缓存 数据 几乎 没有 什么 用 处 ， 因 为 大 
部 分 程序 要 么 以 流 的 方式 读 取 一 个 巨大 的 文件 ,要么 工作 集 太 大 根本 无 法 被 缓存 。 所 以 ， 
无 须 考虑 与 缓存 相关 的 问题 ， 同 时 也 简化 了 客户 端 以 及 整个 系统 的 实现 。 

在 当前 的 HDFS 体系 结构 中 ， 在 整个 HDFS 集群 中 只 有 一 个 命名 空间 ， 并 且 只 有 唯一 
一 个 NameNode， 这 样 做 虽然 大 大 简化 了 系统 设计 ， 但 也 带 来 了 以 下 一 些 明 显 的 局 限 性 。 

(1) 命 名 空间 的 限制 。NameNode 是 保存 在 内 存 中 的 ， 因 此 NameNode 能 够 容纳 的 对 
象 (文件 、 块 ) 的 个 数 会 受到 内 存 空 间 大 小 的 限制 。 

(2) 性 能 的 瓶颈 。 整 个 分 布 式 文件 系统 的 吞吐 量 ， 受 限于 单个 NameNode 的 吞吐 量 。 

(3) 隔 离 问题 。 由 于 集群 中 只 有 一 个 NameNode， 只 有 二 个 命名 空间 ， 因 此 无 法 对 不 
同 应 用 程序 进行 隔离 。 

(4) 集 群 的 可 用 性 。 一 旦 这 个 唯一 的 NameNode 发 生 故障 ”会 导致 整个 集群 变 得 不 可 


HDFS 的 存储 原理 eS 


关于 HDFS 的 存储 原理 包括 3 个 部 分 ， 宛 余数 据 的 保存 、 数 据 存 储 策略 以 及 数据 的 
错误 和 恢复 。 

1. 宛 余 数据 的 保存 

作为 一 个 分 布 式 文件 系统 ,> 为 了 保证 系统 的 容错 性 和 可 用 性 ，HDFS 采用 了 多 副本 
方式 对 数据 进行 元 余 存 储 , 通常 一 个 数据 块 的 多 个 副本 会 被 分 布 到 不 同 的 DataNode 上 。 
这 种 多 副本 方式 具有 以 下 几 个 优点 。 

(1) 加 快 数据 传输 速度 。 当 多 个 客户 端 需 同 时 访问 同一 个 文件 时 ， 可 以 让 各 个 客户 端 
分 别 从 不 同 的 数据 块 副本 中 读 取 数据 ， 这 就 大 大 加 快 了 数据 传输 速度 。 

(2) 容 易 检 查 数据 错误 。HDFS 的 数据 通过 网 络 进行 数据 传输 ， 采 用 多 个 副本 可 以 很 
容易 判断 数据 传输 是 否 出 错 。 

(3) 保 证 数据 的 可 靠 性 。 即 使 某 个 DataNode 出 现 故障 时 ， 也 不 会 造成 数据 丢失 。 

2. 数据 存储 策略 

数据 存储 策略 包括 数据 存放 、 数 据 读 取 和 数据 复制 等 方面 ， 它 在 很 大 程度 上 会 影响 
到 整个 分 布 式 文件 系统 的 读 写 性 能 ， 是 分 布 式 文件 系统 的 核心 内 容 。 

(1) 数 据 存放 。 

为 了 提高 数据 的 可 靠 性 与 系统 的 可 用 性 以 及 充分 利用 网 络 带 宽 ，HDFS 采用 了 以 机 
架 为 基础 的 数据 存放 策略 。 一 个 HDFS 集群 通常 包括 多 个 机 架 ， 不 同 之 间 的 数据 通信 需 
要 经 过 交换 机 或 者 路 由 器 ， 同 一 个 机 架 中 不 同 机 器 之 间 的 通信 和 则 不 需要 经 过 交换 机 和 路 
由 器 ， 这 意味 着 同一 个 机 架 中 不 同 机 器 之 问 的 通信 要 比 不 同 机 架 之 间 机 器 的 通信 带宽 大 。 

HDFS 默认 每 个 DataNode 都 在 不 同 的 机 架 上 ， 这 种 方法 存在 一 个 缺点 ， 那 就 是 写 人 
数据 时 不 能 充分 利用 同一 机 架 内 部 机 器 之 间 的 带宽 。 但 是 ， 这 种 方法 也 带 来 了 更 多 显著 








































































































的 优点 : 首先 ， 可 以 获得 很 高 的 数据 可 靠 性 ， 即 使 一 个 机 架 发 生 故 障 ， 位 于 其 他 机 架 上 
的 数据 副本 仍然 是 可 用 的 ; 其 次 ， 在 读 取 数 据 时 ， 可 以 在 多 个 机 架 并 行 读 取 数 据 ， 大 大 
提高 了 数据 读 取 速 度 ; 最后， 可 以 更 容易 实现 系统 内 部 负载 均衡 和 错误 处 理 。 

HDFS 默认 的 宛 余 复 制 因 子 是 3， 也 就 是 每 一 个 文件 块 会 被 同时 保存 到 3 个 地 方 。 其 
中 ， 有 两 份 副本 放 在 同一 个 机 架 的 不 同 机 器 上 面 ， 第 三 个 副本 放 在 不 同 机 架 的 机 器 上 面 ， 
这 样 既 可 以 保证 机 架 发 生 异 常 时 的 数据 恢复 ， 也 可 以 提高 数据 读 写 性 能 。 

(2) 数 据 读 取 。 

HDFS 提供 了 一 个 API 可 以 确定 一 个 DataNode 所 属 的 机 架 ID， 客 户 端 也 可 以 调用 
API 获取 自己 所 属 的 机 架 ID。 当 客户 端 读 取 数 据 时 ， 从 NameNode 获得 数据 块 不 同 副本 
的 存放 位 置 列表 ， 列表 中 包含 副本 所 在 的 DataNode， 可 以 调用 API 来 确定 客户 端 和 这 些 
DataNode 所 属 的 机 架 ID。 一 旦 发 现 某 个 数据 块 副本 对 应 的 机 架 ID 和 客户 端 对 应 的 机 架 
ID 相同 时 ， 就 优先 选择 该 副本 读 取 数据 ;如 果 没 有 发 现 ， 就 随机 选择 一 个 副本 读 取 数据 。 

(3) 数 据 复制 。 

HDFS 的 数据 复制 策略 采用 了 流水 线 复制 的 策略 。 大 大 提高 了 数据 复制 的 效率 。 当 
客户 端 要 往 HDFS 中 写 入 文件 时 ， 这 个 文件 会 首先 被 写 人 本 地 ， 并 被 切 分 为 若干 个 块 ， 
每 个 块 的 大 小 是 由 HDFS 的 设 定 值 来 决定 的 。 每 个 块 都 向 HDFS 集群 中 的 NameNode 发 
起 写 请 求 ，NameNode 会 根据 系统 中 各 个 DataNode 的 使 用 情况 ， 选 择 一 个 DataNode 列 
表 返 回 给 客户 端 ， 然 后 ， 客 户 端 就 把 数据 首先 写 人 列表 中 的 第 一 个 DataNode， 同 时 把 列 
表 传 给 第 一 个 DataNode; 当 第 一 个 DataNode 接收 到 4KB 数据 的 时 候 ， 写 和 本地， 并 且 
向 列表 中 的 第 二 个 DataNode 发 起 连接 请 求 ， 把 自己 已 经 接收 到 的 4KB 数据 和 列表 传 给 
第 二 个 DataNode; 当 第 二 个 DataNode 接收 到 4KB 数 据 的 时 候 ， 写 和 本地， 并 且 向 列表 
中 的 第 三 个 DataNode 发 起 连接 请 求 。 以 此 类 推 ， 列表 中 的 多 个 DataNode 形成 一 条 数据 
复制 的 流水 线 。 最 后 当 文件 写 完 的 时 候 * 数据 复制 也 同时 完成 。 

3. 数据 的 错误 和 恢复 

HDFS 具有 和 较 高 的 容错 性 ， 可 以 兼容 廉价 的 硬件 ， 它 把 硬件 出 错 看 成 是 一 种 常态 ， 
而 不 是 异常 ， 并 设计 了 相应 的 机 制 监测 数据 错误 和 进行 自动 恢复 ， 主 要 包括 以 下 3 种 
情形 。 

(1)NameNode 出错。 

NameNode 保存 了 所 有 的 元 数据 信息 。 其 中 ， 最 核心 的 两 大 数据 结构 是 Fsimage( 镜 
像 文件 ) 和 Editlog( 编 辑 日 志 )， 如 果 这 两 个 文件 发 生 损坏 ,那么 整个 HDFS 实例 将 失效 。 
因此 ，HDFS 设置 了 备份 机 制 ， 将 这 些 核 心 文件 同步 复制 到 备份 服务 器 Secondary Name- 
Node 上 ， 备 份 服务 器 本 身 不 会 处 理 任何 请 求 ， 只 扮演 备份 机 的 角色 ,虽然 这 样 会 增加 
NameNode 服务 器 的 负担 ， 但 是 ， 它 可 以 有 效 保 证 数据 的 可 靠 性 和 系统 可 用 性 。 当 Nam- 
eNode 出 错时 ， 就 可 以 根据 备份 服务 器 Secondary NameNode 上 的 Fsimage 和 Editlog 进 
行 数据 恢复 。 

(2)DataNode 出 错 。 

每 个 DataNode 会 定期 向 NameNode 发 送 心跳 消息 ， 向 NameNode 报告 自己 的 状态 。 
当 DataNode 发 生 故 障 或 者 网 络 发 生 断 网 时 ， NameNode 就 无 法 收 到 来 自 一 些 DataNode 












































的 心跳 消息 ， 这 时 ， 这 些 DataNode 就 会 被 标记 为 “ 死 节点 "， 节 点 上 面 的 所 有 数据 都 会 
被 标记 为 “不 可 读 "，NameNode 不 会 再 给 它们 发 送 任何 I/O 请 求 。 这 时 ， 有 可 能 出 现 一 
种 情形 ， 即 由 于 一 些 DataNode 的 不 可 用 ,会 导致 一 些 数据 块 的 副本 数量 小 于 元 余 因 子 。 
NameNode 会 定期 检查 这 种 情况 ， 一 旦 发 现 某 个 数据 块 的 副本 数量 小 于 宛 余 因子 ， 就 会 启 
动 数据 元 余 复 制 ， 为 它 生成 新 的 副本 。HDFS 和 其 他 分 布 式 文件 系统 的 最 大 区 别 就 是 可 
以 调整 元 余数 据 的 位 置 。 

(3) 数 据 出 错 。 

网 络 数据 和 磁盘 错误 等 hie 
数据 块 进行 校 验 ， 以 确保 读 取 到 正确 的 数据 。 在 文件 被 创建 时 ， 客 户 端 就 会 对 每 一 
件 块 进行 信息 摘录 ,并 把 这 些 信息 写 入 到 同一 个 路 径 的 隐藏 文件 里 面 。 证 全 到 
件 时 ,会 先 读 取 该 信息 文件 ， 然 后 ,利用 该 信息 文件 对 每 个 读 取 的 数据 块 进行 校 验 ， 如 
果 校 验 出 错 ， 客 户 端 就 会 请 求 到 另外 一 个 DataNode 读 取 该 文件 块 ， 并 且 向 NameNode 报 
告 这 个 文件 块 有 错误 ，NameNode 会 定期 检查 并 且 重 新 复制 这 个 文件 块 。 


:党 襄 :HDFs 的 主要 工作 流程 2 六 
人 本 节 介 绍 4 个 主要 的 工作 流程 ; 客户 端 到 NameNode 的 元 数据 操作 、 



































客户 端 读 文件 、 客 户 端 写 文件 以 及 DataNode 到 NameNode 的 注册 和 心 
et 跳 ， 充 分 体现 了 HDFS 实体 间 各 接口 的 配合 。 
【HDFS 中 常用 1. 客户 端 到 Nam8Node 的 元 数据 操作 


四 Sh 全 人】 客户 端 有 到 NariieNode 的 大 量 元 数据 操作 ， 如 更 改 文件 各、 在 指定 
目录 下 创建 一 个 子 目 录 等 ， 这些 操作 一 般 只 涉及 客户 端 和 NameNode 的 交互 ， 通 过 远程 
接口 ClientProtocol 进行 。 

以 客户 端 Delete( 删 除 ) HDFS 文件 为 例 `- 操作 在 NameNode 上 执行 完毕 后 ，DataN- 
ode 上 存放 文件 内 容 的 数据 块 也 必须 删除 。 但 是 ，NameNode 在 执行 delete( ) 方 法 时 ， 它 
只 标记 操作 涉及 的 需要 被 删除 的 数据 块 ， 而 不 会 主动 联系 保存 这 些 数据 块 的 DataNode， 
立即 删除 数据 。 当 保存 着 这 些 数据 块 的 DataNode 向 NameNode 发 送 心 跳 消 息 时 ， 客 户 端 
到 NameNode 的 删除 文件 操作 如 图 3. 4 所 示 。 
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图 3.4 客户 端 到 NameNode 的 删除 文件 操作 








DataNode 


在 对 心跳 的 应 答 里 ，NameNode 会 通过 DataNodeCommand 命令 DataNode 删除 数据 。 在 
这 个 过 程 中 需要 注意 的 是 : 被 删除 的 数据 ， 也 就 是 该 文件 对 应 的 数据 块 ， 在 删除 操作 完成 后 











的 一 段 时 间 以 后 ， 才 会 被 真正 删除 ， NameNode 和 DataNode 间 永 远 维持 着 简单 的 主 / 从 关系 ， 
NameNode 不 会 向 DataNode 发 起 任何 调用 ，DataNode 需要 配合 NameNode 执行 的 操作 ， 都 
是 通过 DataNode 心跳 应 答 中 携带 的 DataNodeCommand 返回 。 


2. 客户 端 读 文件 
在 客户 端 读 文 件 过 程 中， 客户 端 、NameNode 和 DataNode 之 间 需 要 密切 配合 ， 如 
图 3.5 所 示 。 
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2. getBlockLocations 


(获得 块 位 置 ) 






S. getBlockLocations 
6. read 


客户 端 通过 FileSystem. open( ) 打开 文件 ， 对 应 HDFS 具体 文件 系统 ，Distributed- 
FileSystem 创建 输出 流 FSDataInputStream， 返 回 给 客户 端 ， 客 户 端 使 用 这 个 输入 流 读 取 
数据 。 

对 HDFS 来 说 ,具体 的 输入 流 是 DFSInputStream， 在 该 输入 流 的 构造 函数 中 ， 输 出 流 
实例 通过 ClientProcotol: getBleckLocations( ) 远 程 接口 调用 NameNode， 以 确定 文件 开始 部 分 
数据 块 的 保存 位 置 - 即 图 3.5 中 的 步骤 2。 对 于 文件 中 的 每 个 块 ，NameNode 返回 保存 着 该 
副本 的 DataNodeID。 注 意 ， 这些 DataNode 根据 它们 与 客户 端的 距离 进行 了 简单 排序 。 
客户 端 调 用 FSDataInputStream. Read( ) 方 法 读 取 文件 数据 时 ,DFSInputStream 对 
象 会 通过 DataNode 的 “读数 据 ” 流 接口 ， 与 最 近 的 DataNode 建立 联系 。 客 户 端 反复 调 
read( ) 方 法 ,数据 会 通过 DataNode 和 客户 端 连接 上 的 数据 包 返 回 客户 端 。 当 到 达 块 的 
末端 时 ，DFSInputStream 会 关闭 和 DataNode 间 的 连接 ， 并 通过 getBlockLocations( ) 远 
程 方法 获取 保存 下 一 个 数据 块 的 DataNode 信息 ， 即 图 3. 5 中 的 步骤 5， 然 后 继续 寻找 最 
佳 DataNode， 再 次 通过 DataNode 的 数据 接口 获得 数据 ， 即 图 3. 5 中 的 步骤 6。 

由 客户 端 直接 联系 NameNode， 检 索 数 据 存放 位 置 ， 并 由 NameNode 安排 DataNode 读 
取 顺 序 ， 这 样 的 设计 还 有 一 个 好 处 ， 就 是 能 够 读 取 文 件 引起 的 数据 传输 ， 分 散 到 集群 的 各 个 
DataNode，HDFS 可 以 支持 大 量 的 并 发 客户 端 。 同 时 ，NameNode 只 处 理 数 据 块 定位 请 求 ， 
不 提供 数据 ， 和 否则 随 着 客户 端 数量 的 增长 ， NameNode 会 迅速 成 为 系统 的 瓶颈 。 


3. 客户 端 写 文件 


即使 不 考虑 DataNode 出错 后 的 故障 处 理 ， 文件 写 入 也 是 HDFS 中 最 复杂 的 流程 。 
本 节 以 创建 一 个 新 文件 并 向 其 中 写 人 数据 然后 关闭 文件 为 例 ， 分 析 客 户 端 写 文件 时 
系统 各 节点 的 配合 。 客 户 端 写 文件 如 图 3. 6 所 示 。 


FSDatalnputstream | 
(文件 系统 数据 输入 流 站 1 
4.read 


图 3.5 客户 端 读 文 件 
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图 3.6 客户 端 写 文件 


客户 端 调用 DistributedFileSystem 的 create( ) 方 法 创建 文件 (图 3.6 中 的 步骤 1)， 这 
时 ，DistributedFileSystem 创建 DFSOutputStream, 并 远程 调用 ， 让 NameNode 执行 同 
名 方法 ,在 文件 系统 的 命名 空间 创建 一 个 新 文件 2 NameNode 创建 新 文件 时 ， 需 要 执行 各 
种 各 样 的 检查 ， 如 NameNode 处 于 正常 工作 状态 ,… 被 创建 的 文件 不 存在 ， 客 户 端 有 在 父 
目录 中 创建 文件 的 权限 等 。 这 些 检 查 都 通过 以 后 ，NameNode 会 构造 一 个 新 文件 ， 并 将 创 
建 操作 记录 到 编辑 日 志 中 。 远 程 方 法 调用 结束 后 ，DistributedFileSystem 将 该 DFSOut- 
putStream 对 象 包 庄 在 FSDataOutputStream 实例 中 ， 返 回 给 客户 端 。 

图 3.6 中 的 步骤 3 客户 端 写 入 数据 时 ， 因 为 create( ) 调 用 创建 了 一 个 空 文件 ， 所 以 DF- 
SOutputStream 实例 首先 需要 向 NameNode 申请 数据 块 ， addBlock( ) 方 法 成 功 执行 后 ， 返 回 

-个 LocateBlock 对 象 。 该 对 象 包含 新 数据 块 的 数据 块 标识 和 版 本 号 ， 同 时 ， 它 的 成 员 变 量 
LocateBlock. Locs 提供 了 数据 流 管 道 的 信息 ,通过 上 述 信息 ，DFSOutputStream 可 以 和 Data- 
Node 联系 ,通过 写 数 据 接口 建立 数据 流 管道 。 客 户 端 写 入 FSDataOutputStream 流 中 的 数 
据 ， 被 分 成 一 个 一 个 的 文件 包 ， 放 入 DFSOutputStream 对 象 的 内 部 队列 。 该 队列 中 的 文件 包 
最 后 打包 成 数据 包 ， 发 往 数据 流 管道 ， 并 按照 前 面 讨论 的 方式 ， 流 经 管道 一 次 发 往 客户 端 。 
当 客户 端 收 到 应 答 时 ， 它 将 对 应 的 包 从 内 部 队列 移 除 。 

DFSOutputStream 在 写 完 一 个 数据 块 后 ， 数 据 流 管道 上 的 节点 ， 会 通过 和 NameNode 的 
DatanodeProtocol 远程 接口 的 blockReceived( ) 方 法 ， 向 NameNode 提交 数据 块 。 如 果 数 据 
队列 中 还 有 等 待 输出 的 数据 ， 则 DFSOutputStream 对 象 需要 再 次 调用 addBlock( ) 方 法 ， 
为 文件 添加 新 的 数据 块 。 

客户 端 完 成 数据 的 写 人 后， 调用 close( ) 方 法 关闭 流 ， 见 图 3.6 中 的 步骤 8。 关 闭 意 
味 着 客户 端 不 会 再 往 流 中 写 人 数据 。 所 以 ， 当 DFSOutputStream 数据 队列 中 的 文件 包 收 
到 应 答 后 ， 就 可 以 使 用 ClientProtocol. complete( ) 方 法 通知 NameNode 关闭 文件 ， 完 成 
一 次 正常 的 写 文件 流程 。 

4，DataNode 到 NameNode 的 注册 和 心跳 


本 节 讨论 DataNode 和 NameNode 之 间 的 交互 ， 如 图 3.7 所 示 。 其 中 包括 DataNode 
从 启动 到 进入 正常 工作 状态 的 注册 、 数 据 块 上 报 以 及 正常 工作 过 程 中 的 心跳 等 与 Name- 
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Node 相关 的 远程 调用 。DataNode 与 NameNode 之 间 通 过 协议 DatanodeProrocol 通信 。 
正常 启动 DataNode 或 者 为 升级 而 启动 DataNode， 都 会 向 NameNode 发 送 远程 调用 
versionRequest( ) ， 进 行 必要 的 版 本 检查 。 这 里 的 版 本 检查 ， 只 涉及 构建 版 本 号 ， 保 证 它们 
间 的 HDFS 版 本 是 一 致 的 。 正 常 启动 的 DataNode， 当 版 本 检查 结束 后 ， 在 图 3.7 中 的 步骤 2 
会 接着 发 送 远程 调用 register( ) ， 向 NameNode 注册 。DatanodeProtocol. register( ) 的 主要 工 
作 也 是 检查 ， 通 过 检查 确认 该 数据 及 该 管理 集群 的 成 员 ， 也 就 是 说 ， 用 户 不 能 将 某 一 个 集群 
的 DataNode 直接 注册 到 另 一 个 集群 的 NameNode， 这 保证 了 整个 系统 的 数据 一 致 性 .注册 
成 功 后 ，DataNode 会 将 它 管 理 的 所 有 数据 块 信息 ， 通 过 blockReport( ) 方 法 上 报到 NameNo- 
de， 帮 助 NameNode 建立 HDFS 文件 数据 块 到 DataNode 的 映射 关系 。 这 一 步 操 作 完 成 后 ， 
DataNode 才 正 式 提供 服务 。 


1.versionRequest〈 版 本 要 求 ) 






































2.register (注册 》 





3. blockRepert( 块 报告 ) 





4. sendHeartbeat (发 送 心跳 信息 ) 





5. Delete 


图 3.7 DataNode 和 NameNod& 之 间 的 交互 


所 谓 心跳 机 制 是 指 发 送 方 按照 一 定 规则 【周期 性 发 送 、 空 闲 发 送 等 ) 向 接收 方 发 送 固 
定格 式 的 消息 ,接收 方 收 到 消息 后 回复 一 个 固定 格式 的 消息 。 如 果 长 时 间 没 有 收 到 (如 心 
跳 周期 的 3 倍 )、 则 认为 当前 连接 失效 ， 将 其 断 开 。 由 于 NameNode 和 DataNode 存在 主 / 
从 关系 ，DataNode 需要 每 隔 一 段 时 间 发 送 心跳 到 NameNode，NameNode 如 果 有 一 些 需 
要 DataNode 配合 的 动作 ， 则 会 通过 方法 sendHeartbeat( ) 返 回 。 该 返回 值 是 一 个 Datano- 
deCommand 数组 ， 它 带 回来 一 系列 NameNode 指令 。 如 果 NameNode 长 时 间接 收 不 到 
DataNode 的 心跳 ， 它 会 认为 该 DataNode 已 经 失效 。DataNode 执行 指令 ， 删 除数 据 块 ， 
释放 存储 空间 。 

应 该 说 ，DataNode 和 NameNode 间 的 交互 非常 简单 ， 大 部 分 都 是 DataNode 到 NameNode 
的 心跳 。 但 考虑 到 一 个 规模 的 HDFS 集群 ,一 个 NameNode 会 管理 上 千 个 DataNode。 




















3.3 ”HDFS 的 性 能 优化 








前 面 的 章节 已 经 介绍 了 HDFS 的 架构 和 工作 流程 ,但 对 于 HDFS 使 用 者 来 说 ， 还 需 
要 掌握 HDFS 的 性 能 优化 方法 .因为 在 Hadoop 集群 的 运行 过 程 中 , 文件 读 写 效率 是 影 
响 整 个 作业 性 能 的 重要 因素 。 本 节 整 理 了 主要 的 HDFS 性 能 优化 方法 ,由 于 目前 HDFS 

















回 姑 全 回 性 能 优化 还 与 操作 者 的 经 验 及 集群 状况 密切 相关 ， 所 以 需要 根据 实际 情况 
择优 使 用 。 


可 区 姓 调整 数据 块 尺 二 


【HDFS 的 
可 用 性 配置 】 HDFS 中 的 一 个 文件 是 以 固定 大 小 的 数据 块 的 形式 存储 于 若干 DataN- 
ode 中 的 ， 使 用 数据 块 存储 文件 的 好 处 有 两 方面 : 一 方面 文件 分 块 后 ， 可 以 采用 分 布 式 方 
式 将 一 个 文件 的 多 个 数据 块 存储 于 集群 中 的 多 个 DataNode 上 ,支持 以 并 行 方式 实现 高 效 
读 写 ; 另 一 方面 ， 固 定 大 小 数据 块 的 组 织 形式 ， 大 大 简化 了 文件 管理 操作 ,可 以 有 效 地 
提高 存储 管理 效率 。 

HDFS 中 默认 的 数据 块 大 小 为 64MB， 远 远大 于 物理 磁盘 的 块 大 小 (通常 为 512Byte) 。 
这 样 的 设计 主要 是 因为 HDFS 的 主要 目标 是 存储 较 大 尺寸 的 文件 。 在 对 HDFS 文件 数据 
进行 访问 时 ， 访 问 时 间 主 要 由 两 部 分 组 成 : 一 部 分 是 寻 址 时 间 (seeR_tie); 另 一 部 分 是 
传输 时 间 (trans _ tie)。 可 以 用 下 列 公式 计算 文件 传输 效率 (eyeci 。 


trans_time seek_time 












































a . blockesizel speedt seek_time 
从 公式 中 可 以 看 出 ,文件 传输 效率 的 最 大 值 为 1， 即 不 耗费 任何 时 间 在 寻 址 上 。 单 在 
一 个 给 定 的 系统 中 ,文件 系统 的 寻 址 时 间 和 网 络 传 输 速率 (speed) 通 常 是 确定 的 值 ， 因 此 
要 提高 文件 传输 效率 ， 就 应 加 大 数据 块 天 小 C6lock_size)。 所 以 ， 将 默认 的 数据 块 大 小 由 
64MB 调整 到 128MB 甚至 更 大 ， 通 常 是 可 以 提高 HDFS 性 能 的 。 但 这 个 值 并 不 是 越 大 越 
好 ， 因 为 当 数 据 块 过 大 时 ，HDFS 存储 节点 间 的 存储 均衡 效果 将 降低 ， 并 且 会 增加 Ma- 
pReduce 作业 中 数据 聚合 时 的 也 9 时 间 ， 所 以 要 根据 集群 的 具体 情况 进行 设置 。 


ms 


回 平 名 回 在 数据 的 读 取 过 程 中 ,NameNode 会 根据 DataNode 与 客户 端 之 间 的 距 
离 对 多 个 DataNode 进 行 排序 后 返回 给 客户 端 ， 以 便于 从 最 快 的 节点 读 取 数 
回 由 据 。 在 这 里 ， 距 离 是 一 个 关键 的 数值 。Hadoop 将 网 络 视 为 树 状 结构 ， 树 中 
[HDFS 网 络 每 棵 子 树 的 根 节 点 通常 是 连接 计算 机 的 交换 节点 ， 例 如 机 架 上 的 内 置 交换 
拓扑 慨 念 】 机 、 机 架 间 的 交换 机 等 。 在 这 样 的 设 定 下 ， 两 个 节点 间 的 距离 即 一 个 节点 
到 达 另 一 个 节点 所 要 经 过 的 最 短 距离 。 以 图 3. 8 中 所 示 两 个 数据 中 心 构成 的 Hadoop 集群 
为 例 ， 可 以 计算 出 这 些 节 点 之 间 的 距离 。 数 据 中 心 Data Center 表示 为 DI、D2， 机 架 
Rack 表示 为 R1、R2、R3， 还 有 服务 器 节点 Node 表示 为 nl、n2、n3、n4。 

Distance(D1/R1/nl1，D1/R1/n1)= 二 0 (节点 与 自己 的 距离 为 0) 

Distance(D1/R1/n1，D1/R1/n2) 二 2 ( 同 机 架 内 节点 的 距离 为 2) 

Distance(D1/R1/n1，D1/R2/n3)= 二 4 ( 相 邻 机 架 间 节点 的 距离 为 4) 

Distance(D1/R1/n1，D2/R3/n4) 二 6 (不 同 数据 中 心 节点 的 距离 为 6) 

Hadoop 默认 配置 认为 所 有 节点 是 在 一 个 机 架 中 ， 这 就 需要 集群 管理 者 将 正确 的 网 络 
拓扑 传递 给 Hadoop 运行 环境 ， 才 能 帮助 Hadoop 调度 器 选择 合适 的 DataNode 进行 数据 
写 人 和 读 取 。Hadoop 内 部 实现 了 一 系列 可 描述 树 状 网 络 拓扑 结构 ， 包 括 描述 叶子 节点 
(服务 器 ) 的 NodeBase 类 ， 描述 内 部 节点 (交换 机 或 路 由 器 ) 的 InnerNode， 描 述 网 络 拓扑 
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3.8 集群 示例 


的 NetworkTopology 类 。NetworkTopology 的 add 方法 和 remove 方法 可 以 定义 网 络 结 
构 ，getDistance 方法 可 以 获取 距离 。Hadoop 支持 开发 者 以 自 定义 脚本 或 实现 
DNSToSwitchMapping 类 的 方式 输出 某 个 服务 器 的 位 置信 息 ， 脚 本 的 输入 参数 为 服务 器 
的 域名 或 IP 地址， 输出 为 经 过 解析 后 的 网 络 路 径 列表 。 在 配置 了 脚本 后 ，NameNode 和 
JobTracker 将 可 以 通过 调用 脚本 获得 节点 的 网 络 位 置 ， 以 进行 网 络 拓扑 的 节点 选择 。 


调整 服务 队列 数量 


在 HDFS 结构 中 ， 存 在 多 个 需要 接收 并 发 请 求 的 节点 ” 在 这 些 位 置 上 都 采用 了 支持 
并 发 常用 的 多 服务 队列 机 制 因 此 合理 配置 这 些 服务 队列 的 数量 ， 将 会 有 效 提 高 整个 系 
统 的 服务 效率 。 

1，NameNode 了 县 务 队列 

所 有 的 HDFS 文 件 操作 都 需要 先 从 NameNode 获得 文件 的 元 数据 ， 因 此 在 客户 端 较 
多 时 ，NameNode 会 启动 通过 dfs. namenode. handler. count 参数 控制 的 线程 数量 来 服务 
这 些 客户 端的 请 求 。 默 认 的 线程 数量 为 10， 可 以 适当 增 大 这 一 数值 。 但 需要 注意 的 是 ， 
随 着 线程 数 的 增加 ， 元 数据 读 写 操作 的 并 发 数 也 会 随 之 增加 ， 这 会 导致 内 存 占用 增加 和 
读 写 磁盘 的 1/O 性 能 下 降 。 因 此 也 不 能 无 限制 地 增加 线程 数 。 

2，DataNode 服务 队列 


数据 块 的 读 写 操作 发 生 在 DataNode 节点 ，DataNode 会 启动 dfs. namenode. handler. count 参 
数控 制 的 线程 数量 接收 数据 块 读 写 操作 请 求 ， 默 认 数量 为 3。 与 NameNode 的 线程 数量 调整 类 
似 ， 增 大 线程 数 可 以 提升 DataNode 的 服务 能 力 ， 但 同时 也 会 带 来 运行 线程 的 额外 开销 和 网 络 
与 磁盘 1/O 资源 竞争 。 因 此 这 一 参数 的 增加 也 需要 考虑 集群 中 的 DataNode 数量 。 

3. 请 求 等 待 队 列 

从 前 面 看 到 ， 不管 是 NameNode 还 是 DataNode， 都 采用 了 服务 队列 机 制 处 理 并 发 请 
求 。 当 并 发 请 求 超过 服务 者 (线程 ) 时 ,请 求 将 会 在 一 个 队列 中 等 待 ，Hadoop 的 
ipe. server. listen. queue. size 参数 就 是 控制 队列 长 度 的 。 默 认 的 队列 长 度 是 128, 但 在 线 

















程 数 较 小 或 是 并 发 数 很 大 的 情况 下 ， 这 一 默认 值 可 能 需要 增 大 ， 尤 其 是 在 日 志 中 频繁 出 
现 连 接 被 拒绝 的 错误 时 。 


“这 调整 磁盘 配置 或 空间 


在 集群 规模 不 大 时 ， 一 种 常见 的 部 署 方式 是 将 DataNode 和 MapRe- 
duce 的 TaskTracker 运行 在 同一 台 计 算 机 上 。 在 这 种 情况 下 ， 由 于 
HDFS 存储 的 大 量 文件 和 TaskTracker 产生 的 本 地 临时 文件 会 竞争 有 限 
THDFS 空间 不 足 的 磁盘 空间 ， 因 此 往往 会 在 这 样 的 节点 上 出 现 TaskTracker 运行 失败 或 

的 管理 优化 ] HDFS 存储 失败 的 情况 ， 导 致 集群 性 能 下 降 。 尤其 是 在 Map 或 Reduce 任 
务 因为 磁盘 空间 不 足 而 导致 失败 时 ， 虽 然 会 通过 心跳 消息 通知 JobTracker, 但 是 仍然 有 
可 能 在 后 面 的 过 程 中 继续 被 分 配 任务 ， 并 再 次 因为 磁盘 空间 不 足 而 失败 ， 直 至 达到 最 大 
失败 次 数 ， 这 种 情况 会 极 大 地 影响 集群 性 能 ， 可 以 通过 调整 Hadoop 的 3 个 参数 为 两 者 分 
配合 适 的 预 留 磁盘 空间 ， 或 者 根据 节点 功能 优化 磁盘 配置 ， 

1. 预 留 磁盘 空间 

预 留 磁盘 空间 可 以 通过 mapred. local. dir. minspacestart 参数 调整 可 接受 MapReduce 
任务 的 最 小 磁盘 空间 ，mapred. local. dir. mirispacekill 参数 来 触发 任务 终止 的 最 小 磁盘 空 
间 和 dfs. datanode. du. reserved 参数 调整 MapReduce 任务 预 留 磁盘 空间 这 3 种 方式 实现 。 
(1) 可 接受 MapReduce 任务 的 最 水 磁盘 空间 。 
mapred. local. dir. minspacestart 参数 定义 了 一 个 最 小 磁盘 空间 ， 当 剩余 磁盘 空间 小 于 
此 参数 的 值 时 ，TaskTracker 将 不 再 接受 新 的 任务 。 这 个 参数 的 默认 值 为 0， 即 不 进行 预 
留 ， 此 时 当 HDFS 占用 空间 较 多 导致 TaskTracker 产 生 的 临时 文件 超过 磁盘 剩余 空间 时 ， 
会 出 现任 务 失败 的 情况 。 因 此 ， 应 根据 预 估 的 .Map 或 Reduce 任务 可 能 产生 的 临时 文件 大 
小 ， 乘 以 可 能 运行 的 任务 数量 ， 来 设置 这 个 参数 ; 

(2) 触 发 任务 终止 的 最 小 磁盘 空间 。 

mapred. local. dir. minspacekill 参数 定义 了 一 个 最 小 磁盘 空间 值 ， 当 Map 或 Reduce 
任务 执行 时 ， 若 剩余 磁盘 空间 值 小 于 这 个 值 ， 则 该 TaskTracker 节点 将 不 再 接受 新 的 任 
务 分 配 ， 直 到 正在 运行 的 任务 全 部 完成 。 并 且 ， 为 了 保证 正在 运行 的 任务 能 够 正常 完成 ， 
还 要 将 正在 运行 的 任务 之 一 终止 以 释放 它 占用 的 磁盘 空间 。 选 择 被 终止 的 任务 的 策略 是 
优先 选择 Reduce 任务 ， 然 后 依次 按照 完成 百分比 排序 ， 完 成 百分比 越 小 的 越 先 被 终止 。 

(3)MapReduce 任务 预 留 磁盘 空间 。 

dfs. datanode. du. reserved 参数 定义 了 不 被 HDFS 文件 存储 占用 的 磁盘 空间 值 。 也 就 
是 说 , 一 个 DataNode 节点 可 用 于 存储 HDFS 文件 的 最 大 磁盘 空间 ， 为 总 磁盘 空间 减 去 这 
个 参数 定义 的 值 ， 这 些 预 留 的 磁盘 空间 ， 可 用 于 存储 执行 MapReduce 任务 时 产生 的 临时 
文件 。 这 个 参数 的 默认 值 为 0， 可 以 根据 情况 增 大 。 

2. 根据 节点 功能 优化 磁盘 配置 


HDFS 中 对 性 能 影响 较 大 的 主要 是 NameNode 和 DataNode 节点 ,而 这 两 类 节点 由 于 
功能 不 同 ， 其 磁盘 读 写 操作 也 具有 不 同 的 模式 ， 因 此 可 以 根据 它们 的 差异 进行 有 针对 性 
的 磁盘 配置 。 



































(1)NameNode。 

NameNode 磁盘 上 的 文件 系统 镜像 存储 了 HDFS 文件 系统 中 的 所 有 元 数据 ， 包 括 文 
件 路 径 、 数 据 块 分 布 和 索引 信息 等 。 这 些 元 数据 会 被 全 部 加 载 到 内 存 中 以 支持 高 速 访问 。 
参数 dfs. name. dir 指定 了 文件 系统 镜像 存放 的 路 径 ， 并 且 可 以 采用 逗号 分 隔 的 方式 使 用 
多 个 路 径 ， 文 件 系统 镜像 会 复制 多 份 到 这 些 路 径 下 。 文 件 系 统 镜像 只 会 在 启动 时 读 取 一 
次 加 载 到 内 存 中 。 

在 文件 系统 元 数据 发 生 改变 时 (如 创建 文件 、 写 文件 操作 )， 这 些 修 改 以 日 志 的 形式 记录 
到 NameNode 的 磁盘 中 ， 修 改 操作 要 以 同步 的 形式 等 到 日 志 记 录 完 成 后 才能 正确 返回 ， 因 此 
日 志 的 写 人 速度 对 性 能 的 影响 较 大 。 参 数 dfs. name. dir 指定 了 存放 日 志 的 目录 ， 同 样 支持 以 
逗号 分 隔 的 形式 使 用 多 个 目录 。 在 有 条 件 的 情况 下 ， 如 果 将 NameNode 日 志文 件 的 存放 指定 
到 独立 的 物理 磁盘 上 ， 以 减少 系统 其 他 操作 引起 的 1/O 等 待 ， 可 以 有 效 地 提高 性 能 。 

NameNode 是 HDFS 中 最 关键 的 节点 , 文件 系统 镜像 或 日 志 数 据 的 丢失 ,会 导致 
HDFS 文件 的 丢失 ,并 且 日 志 的 写 入 速度 会 影响 整体 性 能 ,因此 NameNode 磁盘 存储 的 
传输 效率 和 可 靠 性 是 非常 重要 的 。 通 常会 采用 RAID(Redundant Arrays of Independent 
Disks， 独 立 磁 盘 宛 余 阵 列 ) 技 术 提 高 传输 效率 和 可 靠 性 ,建议 采用 RAID2 或 RAID10 构 
建 NameNode 的 磁盘 阵列 ， 可 以 兼顾 速度 和 可 靠 性 : 

(2)DataNode。 

DataNode 负责 数据 块 的 读 写 和 删除 等 操作 ， 提 高 数据 传输 效率 是 提升 DataNode 性 
能 的 关键 。 下 面 介绍 几 个 可 以 提高 DataNode 性 能 的 参数 。 

dfs. data. dir 参数 指定 了 存放 数据 块 的 目录 ,支持 以 逗号 分 隔 的 形式 指定 多 个 存放 目 
录 。Hadoop 采用 类 似 Round-Robin (轮转 调度 ) 的 机 制 在 多 个 目录 间 选 择 某 次 存放 数据 
块 操作 的 目录 ， 因 此 如 果 将 这 些 目录 指定 在 不 同 的 独立 磁盘 上 ， 将 有 助 于 在 多 个 访问 终 
端 并 发 的 情况 下 提高 性 能 。 

dfs. replication 参数 指定 了 每 个 数据 块 存放 在 不 同 DataNode 上 的 副本 数量 ， 默 认 值 为 3。 
在 发 生 节 点 故障 时 * 只 要 有 一 个 数据 块 副本 保持 正常 ， 就 不 用 担心 数据 丢失 。 在 中 小 规模 的 
集群 环境 下 ， 默认 值 3 通常 就 够 用 了 。 如 果 集群 规模 较 大 ， 可 以 设置 这 个 值 为 预计 每 天 最 大 
故障 节点 数量 加 2 即 可 。 控 制 副本 数量 将 有 助 于 减少 网 络 带 宽 和 存储 空间 的 过 大 消耗 。 
由 于 DataNode 已 经 采用 了 副本 机 人 制 保障 数据 完整 性 ， 在 构建 DataNode 磁盘 时 ， 可 
以 利用 Linux 操作 系统 再 加 载 磁盘 时 的 Noatime 和 Nodiratime 选项 ， 通 过 减少 读 取 记 录 
访问 时 间 的 操作 来 提高 文件 访问 性 能 。 
同样 ， 由 于 HDFS 已 经 提供 了 健全 的 数据 容错 机 制 ， 在 要 求 不 是 很 苛刻 的 情况 下 对 
DataNode 采用 无 RAID 的 配置 ， 可 以 起 到 低 成 本 高 容量 的 效果 。 























本 章 小 结 


分 布 式 文件 系统 是 大 数据 时 代 解 决 大 规模 数据 存储 问题 的 有 效 方案 ，HDFS 开源 实 
现 了 GFS， 可 以 利用 廉价 硬件 构成 的 计算 机 集群 实现 海量 数据 的 分 布 式 存储 。HDFS 具 
有 兼容 廉价 的 硬件 设备 、 流 数据 读 写 、 大 数据 集 、 简 单 的 文件 模型 、 强 大 的 跨 平台 兼容 
性 等 特点 。 但 是 ， 也 要 注意 到 HDFS 有 其 自身 的 局 限 性 ， 例 如 不 适合 低 延 迟 数据 访问 、 








无 法 高 效 存储 大 量 小 文件 和 不 支持 多 用 户 写 入 及 任意 修改 文件 等 。HDFS 采用 了 主 / 从 结 
构 模 型 ， 一 个 HDFS 集群 包括 一 个 NameNode 和 若干 个 DataNode。NameNode 负责 管理 
分 布 式 文件 系统 的 命名 空间 ; DataNode 是 分 布 式 文件 系统 HDFS 的 工作 节点 ， 负 责 数据 
的 存储 和 读 取 。 在 Hadoop 集群 的 运行 过 程 中 ,文件 读 写 效率 是 影响 整个 作业 性 能 的 重要 
因素 ， 可 通过 调整 数据 块 尺寸 、 规 划 网 络 与 节点 、 调 整 服务 队列 数量 和 磁盘 空间 等 来 进 
行 配置 。 


~ 
后 关键 术语 


(1) 分 布 式 文件 系统 (2) 块 (3)NameNode 

(4)DataNode (5) 客 户 端 (6) 主 /从 结构 模型 
习 题 

1. 选择 题 


(1) 以 下 ( ) 不 是 NameNode 提供 的 协议 接口 
A. ClientProtocol 接口 
B. DataNodeProtocol 接口 
C. NameNodeProtocol 接口 
D. Secondary NameNodeProtocol 接口 
(2)HDFS 的 管理 节点 是 (4 ”)， 用 于 存储 并 管理 元 数据 。 
A. NameNode B. DataNode 
C. Client D; Secondary NameNode 
(3) 分 布 式 文件 系统 的 设计 目标 主要 包括 透明 性 、( )、 可 伸缩 性 、 容 错 以 及 安全 





A. 可 靠 性 B. 开放 性 
C. 即时 性 D. 并 发 控制 
(4) 以 下 ( ) 不 属于 设计 目标 中 透明 性 的 定义 。 
A. 访问 透明 性 B. 伸缩 透明 性 
C. 位 置 透明 性 D. 存储 透明 性 
(5) 以 下 ( ”) 不 属于 HDFS 的 存储 原理 。 
A. 数据 分 区 合理 化 B. 数据 的 错误 和 恢复 
C. 宛 余 数据 的 保存 D. 数据 的 可 视 化 存储 


(6) 使 用 数据 块 存储 文件 的 好 处 不 包括 ( Ds 
A. 支持 以 并 行 方 式 实现 高 效 读 写 
B. 简化 了 文件 管理 操作 
C. 有 效 提高 存储 管理 效率 
D. 有 效 保障 数据 的 安全 性 











2. 判断 题 


(1) 得 到 广泛 应 用 的 分 布 式 文件 系统 有 GFS 和 HDFS。 ( ) 
(2)HDFS 中 客户 端 无 须 访问 NameNode 即 可 找到 请 求 的 文件 块 所 在 的 位 置 ， 进 而 到 
相应 位 置 读 取 所 需 文件 块 。 ¢ 
(3) 处 理 过 小 的 文件 不 仅 无 法 充分 发 挥 HDFS 优势 ， 而 且 会 严重 影响 到 系统 的 扩展 和 
性 能 。 人 
(4) 用 户 不 得 修改 文件 块 的 大 小 和 副本 个 数 。 ot、 
(5) 一 个 HDFS 集群 包含 一 个 单独 的 Master 和 一 个 节点 服务 器 。 ( ) 
(6)HDFS 默认 每 个 DataNode 都 是 在 同一 个 机 架 上 。 ( ) 


3. 简 答题 

(1)HDFS 的 主要 设计 目标 是 什么 ? 

(2) 简 述 HDFS 的 局 限 性 。 

(3) 简 述 HDFS 中 的 数据 复制 过 程 。 \ 

(4) 简 述 HDFS 中 NameNode、DataNode 以 及 客户 端 辫 间 的 关系 。 
(5)HDFS 的 存储 原理 有 哪些 ? 

(6)HDFS 主要 的 性 能 优化 方法 有 哪些 ? 
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知识 要 点 掌握 程度 相关 知识 
分 布 式 并 行 编程 了 解 分 布 式 并 行 编程 的 背景 和 优势 
Map 和 Reduce 掌握 Map 和 Reduce 函数 
MapReduce 编程 模型 常用 组 件 熟悉 MapReduce 编程 模型 常用 组 件 说 明和 用 法 
MapReduce 工作 流程 熟悉 MapReduce 的 各 个 执行 阶段 
Shuffle 过 程 掌握 Shuffle 过 程 详解 
MapReduce 在 关系 代数 运算 中 的 应 用 ， 在 矩阵 乘 
MapReduce 的 具体 应 用 熟悉 法 中 的 应 用 ' 在 矩阵 -向 量 乘法 中 的 应 用 





MapReduce 是 一 种 可 用 于 大 数据 处 理 的 编程 框架 ， 也 是 一 种 并 行 可 扩展 的 计算 模型 ， 
并 且 有 较 好 的 容错 性 ， 主 要 用 于 解决 海量 离线 数据 的 批 处 理 问题 。MapReduce 采用 “分 
而 治之 ”的 思想 ， 把 对 大 规模 数据 集 的 操作 分 发 给 一 个 主 节 点 管理 下 的 各 个 分 节点 共同 
完成 ， 通 过 整合 各 个 节点 的 中 间 结 果 ， 从 而 得 到 最 终结 果 。 简 言 之 ，MapReduce 是 “ 任 
务 的 分 解 与 结果 的 汇总 ”。 

















4.1 MapReduce 简介 


MapReduce 是 一 种 编程 模型 ， 用 于 大 规模 数据 集 ( 大 于 1TB) 的 并 行 运算 。 概念 
“Map( 上 映射 )” 和 “Reduce( 归 约 )” 是 它 的 主要 思想 。MapReduce 极 大 地 方便 了 编程 人 
员 ， 使 他 们 在 不 会 分 布 式 并 行 编程 的 情况 下 ， 也 能 将 自己 的 程序 运行 在 分 布 式 系统 上 。 
当前 的 软件 实现 是 指定 一 个 Map 函数 ， 用 来 把 一 组 键 值 对 映射 成 一 组 新 的 键 值 对 ， 指 定 
并 发 的 Reduce 函数 ， 用 来 保证 所 有 映射 的 键 值 对 中 的 每 一 个 均 共 享 相同 的 键 组 。 


分 布 式 并 行 编程 


在 摩尔 定律 的 作用 下 ,程序 员 无 须 考虑 计算 机 性 能 难以 匹配 软件 发 展 的 问题 ， 因 为 








每 隔 约 18 个 月 ， 集 成 电路 芯片 上 所 集成 的 电路 数目 就 翻 一 倍 ，CPU( 中 央 
处 理 器 ) 的 性 能 就 会 提高 一 倍 ， 软 件 不 用 做 任何 改变 ， 就 可 享受 免费 的 性 能 
提升 。 然 而 ， 由 于 晶体 管 电路 已 经 逐渐 接近 其 物理 上 的 性 能 极限 ， 单 个 
CPU 的 速度 每 隔 18 个 月 难以 青 翻 一 倍 去 提供 越 来 越 快 的 计算 性 能 。 因 此 ， 
Intel、AMD 和 IBM 等 芯片 厂商 开始 从 多 核 角度 挖掘 CPU 的 性 能 潜力 。 多 
核 时 代 以 及 互联 网 时 代 的 到 来 ， 使 软件 编程 方式 发 生 了 重大 变革 ， 基 于 多 核 的 多 线程 并 
发 编程 以 及 基于 大 规模 计算 机 集群 的 分 布 式 并 行 编程 是 当下 及 未 来 软件 性 能 提升 的 主要 
途径 。 


许多 人 认为 这 种 编程 方式 的 重大 变化 将 会 带 来 一 次 软件 的 并 发 危机 ， 回避 光 回 
为 传统 的 软件 方式 基本 上 是 单 指令 单数 据 流 的 顺序 执行 ， 这 种 顺序 执行 i 
二 分 符合 人 类 的 思考 习惯 ， 却 与 并 发 并 行 编程 格格 不 入 。 基 于 集群 的 分 布 吧 交 
式 并 行 编程 能 够 让 软件 与 数据 同时 运行 在 同一 网 络 的 多 台 计 算 机 二， 这 里 

的 每 一 台 均 可 以 是 普通 的 计算 机 。 这 样 的 分 布 式 并 行 环境 的 最 大 优点 是 书 

以 很 容易 地 通过 增加 计算 机 来 扩充 新 的 计算 结 点 ， 并 由 此 获得 海量 的 计算 能 力 ， 同 时 又 
具有 相当 强 的 容错 能 力 ， 一 批 计算 结 点 失效 也 不 会 影响 计算 的 正常 进行 及 结果 的 正确 性 。 
谷歌 公司 使 用 MapReduce 的 并 行 编程 模型 进行 分 布 式 并 行 编程 ， 运 行 在 GFS 的 分 布 式 文 
件 系统 上 ， 为 全 球 亿 万 个 用 户 提 供 搜 索 服 务 。 

Hadoop 实现 了 谷歌 公司 的 MapRedutce 编程 模型 ， 提 供 了 简单 易 用 的 编程 接口 ， 也 
提供 了 它 自己 的 分 布 式 文件 系统 了 DFS: 与 谷歌 公司 不 同 ，Hadoop 是 开源 的 ， 任 何人 都 
可 以 使 用 这 个 框架 来 进行 并 行 编程 。 如 果 说 分 布 式 并 行 编程 的 难度 足以 让 普通 程序 员 望 
而 生 旦 的 话 ， 那 么 开源 Hadeop 的 出 现 极 大 降低 了 它 的 门槛 。 
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Hadoop 完全 支持 MapReduce 模型 ,MapReduce 模型 是 谷歌 为 了 在 廉 0 
价 的 计算 机 集群 上 处 理 以 P 数量 级 计算 的 大 数据 集 而 发 明 的 一 个 解决 方案 。 | pn 
对 适合 用 MapReduce 米 处 理 的 数据 集 或 任务 有 一 个 基本 要 求 ， 待 处 理 的 数 疗 沁 弥 
据 集 可 以 分 解 成 许多 小 的 数据 集 ， 而 且 每 一 个 小 数据 集 都 可 以 完全 并 行 地 
进行 处 理 。MapReduce 模型 把 解决 问题 分 成 以 下 两 个 截然 不 同 的 步骤 。 

(1)Map: 读 和 信和 转换 初始 化 数据 ， 并 行 处 理 独立 的 输入 记录 。 

(2)Reduce: 组 合 和 抽样 处 理 数据 ， 关 联 的 数据 必须 通过 一 个 模块 进行 集中 处 理 。 

Hadoop 中 MapReduce 的 核心 概念 是 把 输入 的 数据 分 成 不 同 的 逻辑 块 ，Map 作业 首 
先 对 每 一 块 进行 独立 而 并 行 的 处 理 ， 这 些 独立 处 理 块 的 结果 会 被 重新 组 合成 不 同 排序 的 
集合 ， 这 些 集合 最 后 由 Reduce 作业 进行 处 理 。 在 分 布 式 计 算 中 ，MapReduce 框架 负责 处 
理 并 行 编程 中 的 分 布 式 存储 、 工 作 调度 、 负 载 均 衡 、 容 错 均衡 、 容 错 处 理 和 网 络 通信 等 
复杂 问题 ， 把 处 理 过 程 高 度 抽象 为 两 个 函数 Map 和 Reduce: Map 负责 把 任务 分 解 成 
多 个 任务 ; Reduce 负责 把 分 解 后 多 任务 处 理 的 结果 汇总 起 来 。 

在 典型 的 MapReduce 应 用 执行 场景 中 数 以 百 计 的 普通 计算 机 通过 以 太 网 联结 成 一 
个 巨大 的 Hadoop 集群 ， 并 在 每 台 计算 机 上 部 署 MapReduce 计算 架构 。 在 集群 上 ， 有 一 
台 计 算 机 被 委任 以 JobTracker 的 重任 ， 主 要 对 集群 中 MapReduce 作业 的 执行 进行 监督 和 
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管理 ， 其 他 的 计算 机 被 称 为 TaskTracker， 负 责 MapReduce 作业 中 Map 任务 和 Reduce 
任务 的 具体 实现 。 

MapReduce 计算 模型 的 核心 是 Map 和 Reduce， 这 两 个 函数 ( 见 表 4-1) 由 用 户 负责 实现 ， 
功能 是 按 一 定 的 映射 规则 将 输入 的 Key/ Value 对 转换 成 男 一 个 或 一 批 Key/ Value 对 输出 。 

表 4-1 Map 和 Reduce 函数 
函 数 输 入 输 出 说 明 
1. 将 小 数据 集 进一步 解析 成 一 批 二 Key, Value 

二 对 ,输入 Map 函数 中 进行 处 理 


























Map < 一 kl,vl 二 | List(<k2,v2>) 
2. 每 一 个 输入 的 一 kl,v1 二 会 输出 一 批 二 k2， 
v2 二 。 一 k2,v2 二 是 计算 的 中 间 结 果 
<k2, or 输入 的 中 间 结 果 气 K2 List(v2) 二 中 的 List(v2) 
List(v2)> 表示 的 是 一 批 属于 同 硅 个 k2 的 Value 











以 一 个 计算 文本 文件 中 每 个 单词 出 现 次 数 的 程序 为 例 , 二 kl,vl 二 可 以 是 二 行 在 文件 
中 的 偏 移 位 置 ， 文件 中 的 一 行 二 ,经 Map 函数 映射 之 后 ， 形 成 一 批 中 间 结 果 去 单词， 出 
现 次数 二 ， 即 对 应 过 k2,v2 二 ， 而 Reduce 函数 则 可 以 对 中 间 结 果 进 行 处 理 ， 将 相同 单词 
的 出 现 次 数 进行 累加 ， 得 到 每 个 单词 总 的 出 现 次 数 。 

基于 MapReduce 计算 模型 编写 分 布 式 并 行程 序 非常 简单 ， 程 序 员 的 主要 编码 工作 就 
是 实现 Map 和 Reduce 函数 ， 其 他 并 行 编程 中 的 种 种 复杂 问题 ， 如 分 布 式 存储 、 工 作 调 
度 、 负 载 平衡 、 容 错 处 理 和 网 络 通信 等 ， 均 由 MapReduce 框 架 负 责 处 理 。 


MapReduee 编程 模型 常用 组 件 二 


MapReduce 应 用 广泛 的 原因 之 一 就 是 其 易 用 性 ， 它 提供 了 一 个 高 度 抽象 化 后 变 得 非 
常 简单 的 编程 模型 ， 它 是 在 总 结 大 量 应 用 共同 特点 的 基础 上 抽象 出 来 的 分 布 式 计 算 框架 ， 
在 其 编程 模型 中 ， 任 务 可 以 被 分 解 成 相互 独立 的 子 问题 。MapReduce 编程 模型 给 出 了 分 
布 式 编程 方法 的 5 个 步 又: 

(1) 和 迭代 ， 遍 历 输 入 数据 ， 将 其 解析 成 Key/Value 对 ; 

(2) 将 输入 Key/Value 对 映射 成 另外 一 些 Key/Value 对 ; 

(3) 根 据 Key 对 中 间 结果 进行 分 组 (Grouping); 

(4) 以 组 为 单位 对 数据 进行 归 约 ; 

(5) 和 迭代， 将 最 终 产 生 的 Key/ Value 对 保存 到 输出 文件 中 。 

下 面 介绍 编程 模型 中 用 到 的 主要 组 件 及 其 作用 。 


1. InputFormat 


主要 用 于 描述 输入 数据 的 格式 .提供 数据 切 分 功能 ， 按 照 某 种 方式 将 输入 数据 切 分 
成 若干 个 Split( 分 片 ), 确定 MapTask 的 个 数 ， 以 及 为 Mapper 提供 输入 数据 ， 给 定 某 个 
Split， 让 其 解析 成 一 个 个 Key/Value 对 。 

InputFormat 中 的 getSplits 方法 主要 完成 数据 切 分 的 功能 ,会 尝试 着 将 输入 数据 切 分 
成 numSplits 个 进行 存储 。InputSplit( 输 入 分 片 ) 中 只 记录 了 分 片 的 元 数据 信息 ， 如 起 始 






































位 置 、 长 度 和 所 在 的 节点 列表 。 

在 Hadoop 中 对 象 的 序列 化 主要 用 在 进程 间 通 信 以 及 数据 的 永久 存储 。 客 户 端 会 调用 
Job - InputFormat 中 的 getSplits 函数 ， 当 作业 提交 到 JobTracker 端 对 作业 初始 化 时 ， 可 
以 直接 读 取 该 文件 ， 解 析出 所 有 InputSplit， 并 创建 对 应 的 MapTask。 而 重要 的 方法 就 是 
getRecordReader( ) ， 它 返回 一 个 RecordReader， 将 输入 的 InputSplit 解析 成 若干 个 Key/ 
Value 对 。MapReduce 框架 在 MapTask 执行 过 程 中 ,不 断 地 调用 RecordReader 对 象 中 的 
方法 ， 获 取 Key/Value 对 交 给 Map 函数 处 理 , 伪 代码 如 下 : 





K1 Key = input. createKey( ) 7 

V1 Value = input. createValue( ) 7 

while (input. next (Key, Value)) { 

//invoke Map( ) 

pg close(); < c A 

对 于 FileInputFormat， 这 是 一 个 采用 统一 的 方法 对 各 种 输入 文件 进行 切 分 的 Input- 
Format， 也 是 TextInputFormat、KeyValueInputForrmat 等 类 的 基 类 。 其 中 最 重要 的 是 
getSplits 函数 ,最 核心 的 两 个 算法 就 是 Split 切 分 算法 和 host 选择 算法 。 

Split 切 分 算法 主要 用 于 确定 InputSplit 的 个 数 和 每 个 InputSplit 对 应 的 数据 段 。 在 
InputSplit 切 分 方案 完成 后 ， 就 需要 确定 每 个 InputSplit 的 元 数据 信息 : 二 file, start， 
length,host 二 ,表示 InputSplit 所 在 文件 、 起 始 位 置 、 长 度 和 所 在 的 host 节点 列表 ， 其 
中 host 节点 列表 是 最 难 确定 的 。host 列表 选择 策略 直接 影响 到 运行 过 程 中 的 任务 本 地 性 。 
Hadoop 中 HDFS 文件 是 以 瑞 为 单位 存储 的 ， 一 个 大 文件 对 应 的 块 可 能 会 遍布 整个 集群 ， 
InputSplit 的 划分 算法 可 能 会 导致 一 个 InputSplit 对 应 的 多 个 块 位 于 不 同 的 节点 上 。 

Hadoop 将 数据 本 地 性 分 成 三 个 等 级 : 主机 本 地 性 (Node Locality)、 机 柜 本 地 人 性 
(Rack Locality) 和 数据 中 心 本 地 性 (Data Center Locality) 。 在 进行 任务 调度 时 ， 会 依次 考 
虑 这 三 个 节点 的 本 地 性 等 级 ， 即 优先 让 空闲 资源 处 理 本 节点 上 的 数据 。 如 果 本 节点 上 没 
有 任何 可 处 理 的 数据 ， 则 处 理 同 一 个 机 柜上 的 数据 ， 最 后 的 情况 是 处 理 其 他 机 柜上 的 数 
据 , 但 是 必须 位 于 同一 个 数据 中 心 。 

虽然 InputSplit 对 应 的 文件 块 可 能 位 于 多 个 节点 上 ， 但 考虑 到 任务 调度 的 效率 ， 通 常 
不 会 将 所 有 节点 放 到 InputSplit 的 主机 (host) 列 表 中 ， 而 是 选择 数据 总 量 最 大 的 前 几 个 节 
点 ， 作 为 任务 调度 时 判断 任务 是 否 具有 本 地 性 的 主要 凭据 。 关 于 FileInputFormat， 设计 
了 一 个 简单 有 效 的 启发 式 算法 : 按照 机 柜 包 含 的 数据 量 对 机 柜 进 行 排序 ， 在 机 柜 内 部 按 
照 每 个 节点 包含 的 数据 量 对 所 有 节点 进行 排序 ， 取 前 N 个 节点 的 host 作为 InputSplit 的 
主机 列表 (N 为 文件 块 的 副本 数 ， 默 认为 3) 。 

当 InputSplit 的 尺寸 大 于 Block( 块 ) 的 尺寸 时 ，MapTask 不 能 实现 完全 的 数据 本 地 
性 ， 总 有 一 部 分 数据 需要 从 远程 节点 中 获取 ， 因 此 当 使 用 基于 FileInputFormat 实现 In- 
putFormat 时 ， 为 了 提高 MapTask 的 数据 本 地 性 ,应 该 尽量 使 InputSplit 与 Block 大 小 相 
同 。 虽然 理论 上 如 此 ,但 是 实际 中 这 会 导致 过 多 的 MapTask， 使 得 任务 初始 时 占用 的 资 
源 很 大 。 









































2. OutputFormat 











OutputFormat 主要 用 于 描述 输出 数据 的 格式 ， 能 够 将 用 户 提供 的 Key/Value 对 写 入 
特定 格式 的 文件 中 。 其 中 与 InputFormat 类 似 ，OutputFormat 接口 中 有 一 个 重要 的 方法 
就 是 getRecordWriter， 返 回 的 RecordWriter 接收 一 个 Key/Value 对 ， 并 将 之 写 入 文件。 
Task 执行 过 程 中 ，MapReduce 框架 会 将 Map 或 Reduce 函数 产生 的 结果 传人 write 方法 : 











public void Map (Text Key, Text Value, OutputCollector< Text,Text> output, Report- 
er reporter) throws IOException { 
output. collect (newKey, newValue); 


} 


Hadoop 中 所 有 基于 文件 的 OutputFormat 都 是 从 FileOutputFormat 中 派生 的 ,事实 
上 这 也 是 最 常用 的 OutputFormat。 总 结 发 现 ，FileOutputFormat 实现 的 主要 功能 有 
两 点 : 

(1) 为 防止 用 户 配置 的 输出 目录 数据 被 意外 覆盖 ， 实 现 checkOutputSpecs 接口 ， 在 输 
出 目录 存在 时 抛 出 异常 ， 

(2) 处 理 side-effect file。Hadoop 可 能 会 在 一 个 作业 执行 过 程 中 加 入 一 些 推测 式 任 务 。 
因此 ，Hadoop 中 Reduce 端 执行 的 任务 并 不 会 真正 写 人 到 输出 目录 ， 而 是 会 为 每 一 个 
Task 的 数据 建立 一 个 side- effect file、 将 产生 的 数据 临时 写 入 该 文件 ， 待 Task 完成 后 ， 
再 移动 到 最 终 输出 目录 。 

默认 情况 下 ， 当 作业 成 功 完成 后 ,> 会 在 最 终结 果 目 录 平 生成 空 文件 SUCCESS， 该 文 
件 主要 为 高 层 应 用 提供 完成 作业 运行 的 标识 。 

3. Mapper 和 Reduger 


Mapper 的 过 程 主要 包括 初始 化 、MaP 操作 执行 和 清理 三 个 部 分 。Reducer 过 程 与 
Mapper 过 程 基本 类 似 。 

(1) 初 始 化 >: Mapper 中 的 configure 方法 允许 通过 JobConf 参数 对 Mapper 进行 初始 
化 工作 ; 

(2)Map 操作 执行 ， 通 过 前 面 介绍 的 InputFormat 中 的 RecordReader 从 InputSplit 获 
取 一 个 Key/Value 对 ， 交 给 实际 的 Map 函数 进行 处 理 ; 

(3) 通 过 继承 Closable 接口 。 获 得 close 方法 .实现 对 Mapper 的 清理 。 

对 于 一 个 MapReduce 应 用 ， 不 一 定 存在 Mapper，MapReduce 框架 提供 了 比 Mapper 
更 加 通用 的 接口 :org. apache. Hadoop. Mapred. MapRunnable， 可 以 直接 实现 该 接口 定制 
自己 的 Key/Value 处 理 逻 辑 。 





























4. Partitioner 


Partitoner 的 作用 是 对 Mapper 产生 的 中 间 结 果 进 行 分 片 ， 将 同一 分 组 的 数据 交 给 一 
个 Reducer 来 处 理 , 会 直接 影响 Reducer 阶段 的 负载 均衡 。 其 中 最 重要 的 方法 就 是 get- 
Partition， 包含 三 个 参数 : Key、Value 及 Reducer 的 个 数 numPartions 。 

MapReduce 提供 两 个 Partitioner 实现 : HashPartitoner 和 TotalOrderPartitioner。 
HashPartitioner 是 默认 实现 ， 基 于 哈 希 值 进行 分 片 ， TotalOrderPartitoner 提供 了 一 种 基 














[5 并 行 计算 框架 MapReduce 


于 区 间 分 片 的 方法 ， 通 常用 在 数据 的 全 排序 中 。 例 如 归并 排序 ， 如 果 MapTask 进行 局 部 
排序 后 Reducer 端 进行 全 局 排序 ， 则 Reducer 端 只 能 设置 成 一 个 ， 这 会 成 为 性 能 瓶颈 。 为 
了 提高 全 局 排序 的 性 能 和 扩展 性 ， 并 保证 一 个 区 间 中 的 所 有 数据 都 大 于 前 一 个 区 间 的 数 
据 ， 就 会 用 到 TotalOrderPartitioner。 























4.2 MapReduce 的 工作 流程 


一 个 作业 执行 过 程 中 有 一 个 Jobtracker 和 多 个 Tasktracker， 分 别 对 ” 国 趟 
应 于 HDFS 中 的 NameNode 和 DataNode。 Be 在 用 户 端 把 已 配置 参 | 
数 打包 成 jar 文件 存储 在 HDFS， 并 把 存储 路 径 提交 给 Jobtracker， 然 后 “” 国 让 
Jobtracker 创建 每 一 个 Task， 并 且 分 发 到 Tasktracker 服务 中 去 执行 。 【Jobtracker 与 


A oiltraelien 
MapReduce 工作 流程 概述 Xx 及 的 关系 了 


MapReduce 其 实 是 分 治 算法 的 一 种 体现 ， 所 谓 分 治 算法 就 是 “分 而 治之 ”"， 将 大 的 问 
题 分 解 为 相同 类 型 的 子 问题 ， 最 好 具有 相同 的 规模 ， 然 后 对 子 问题 进行 求解 ， 再 合并 成 
大 问题 的 解 。MapReduce 就 是 分 治 法 的 一 种 ， 将 输 大 进行 分 片 ， 然 后 交 给 不 同 的 Task 进 
行 处 理 ， 然 后 合并 成 最 终 的 解 。 整 个 MapRediace 过 程 可 以 概括 如 下 : 输入 一 Map 一 Shuf- 
fle>Reduce 习 输出 。 

输入 文件 会 被 切 分 成 多 个 块 ,每 一 块 都 有 一 个 MapTask。Map 阶段 的 输出 结果 会 先 
写 到 内 存 缓冲 区 ， 然 后 由 缓冲 区 写 到 磁盘 上 。 默 认 的 缓冲 区 大 小 是 100MB， 溢 出 的 百 分 
比 是 80% ， 也 就 是 说 ， 当 缓冲 区 达到 80MB 时 就 会 写 到 磁盘 上 。 如 果 Map 计算 完成 后 的 
中 间 结 果 没 有 达到 80MB。 最 终 也 是 要 写 到 磁盘 上 的 ， 因 为 它 最 终 还 是 要 形成 文件 。 那 
么 ,在 往 磁盘 上 写 的 时 候 会 进行 分 区 和 排序 ,一 个 Map 的 输出 可 能 有 多 个 这 样 的 文件 ， 
这 些 文件 最 终 会 合并 成 一 个 ， 这 就 是 此 Map 的 输出 文件 。 

MapReduee 卫 作 流程 的 详细 说 明 如 下 。 

(1) 输 入 文件 分 片 ， 每 一 片 都 由 一 个 MapTask 来 处 理 。 

(2)Map 输出 的 中 间 结 果 会 先 放 在 内 存 缓冲 区 中 ,这 个 缓冲 区 的 大 小 默认 是 100MB， 
当 缓冲 区 中 的 内 容 达 到 80% 时 (80MB)， 内 容 将 被 写 到 磁盘 上 。 一 个 Map 会 输出 一 个 或 
者 多 个 这 样 的 文件 ， 若 一 个 Map 输出 的 全 部 内 容 没 有 超过 限制 ， 则 最 终 也 会 发 生 这 个 写 
磁盘 的 操作 。 

(3) 从 缓冲 区 写 到 磁盘 时 ， 会 进行 分 区 并 排序 ， 分 区 指 的 是 某 个 Key 应 该 进入 到 哪个 分 
， 同 一 分 区 中 的 Key 会 进行 排序 ， 如 果 定 义 了 Combiner 的 话 ， 也 会 进行 es 
(4) 如 果 一 个 Map 产生 的 中 间 结 果 存 放 到 多 个 文件 ， 则 这 些 文件 最 终 会 合并 成 一 个 文 

件 。 这 个 合并 过 程 不 会 改变 分 区 数量 ， 只 会 减少 文件 数量 。 假 设 分 了 3 个 区 、4 个 文件 ， 
则 最 终 会 合并 成 3 个 区 、1 个 文件 。 

(5) 以 上 只 是 一 个 Map 的 输出 ， 接 下 来 进入 Reduce 阶段 。 

(6) 每 个 Reducer 对 应 一 个 ReduceTask， 在 真正 开始 Reduce 之 前 ， 先 要 从 分 区 中 抓 
取 数 据 。 

(7) 相 同 分 区 的 数据 会 进入 同一 个 Reduce。 这 一 步 , 会 从 所 有 Map 输出 中 抓 取 某 一 
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分 区 的 数据 ， 在 抓 取 的 过 程 中 伴随 着 排序 、 合 并 。 
(8)Reduce 输出 。 


MapReduce 的 各 个 执行 阶段 


一 个 MapReduce 作业 (Job) 的 执行 流程 是 : 作业 提交 一 作业 初始 化 一 任务 分 配 一 任务 
执行 ~ 更 新 任务 执行 进度 和 状态 一 作业 完成 。MapReduce 作业 流程 如 图 4. 1 所 示 。 
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图 4.1 MapReduce 作业 流程 


一 个 完整 的 MapReduce 作业 流程 包括 4 个 独立 的 实体 ， 见 表 4-2。 
表 4-2 独立 的 4 个 实体 




















实 体 功 能 

Client 编写 MapReduce 程序 配置 作业 .提交 作业 
JobTracker 协调 此 作业 的 运行 ， 分 配 作业 . 初始 化 作业 ， 与 TaskTracker 进行 通信 
TaskTracker 负责 运行 作业 ， 保 持 与 JobTracker 进行 通信 

HDFS 分 布 式 文件 系统 .保存 作业 的 数据 和 结果 





MapReduce 各 个 执行 阶段 的 详细 说 明 如 下 。 








[er jian gD 
(1) 作 业 提交 。 


JobClient 使 用 runjob( ) 方 法 创建 一 个 JobClient 实例 ， 然 后 调用 submitJob( ) 方 法 进 
行 作 业 的 提交 ， 提 交 作 业 的 具体 过 程 如 下 。 

中 通过 调用 JobTracker 对 象 的 getrNewJobId( ) 方 法 从 JobTracker 处 获得 一 个 作 
业 ID。 

@ 检查 作业 的 相关 路 径 。 如 果 输 出 路 径 存在 ， 作 业 将 不 会 被 提交 (保护 上 一 个 作业 运 
行 结果 ) 。 

@ 计算 作业 的 输入 分 片 ， 如 果 无 法 计算 ， 例 如 输入 路 径 不 存在 ， 作 业 将 不 会 被 提交 ， 
错误 返回 给 MapReduce 程序 。 

@ 将 运行 作业 所 需 资 源 ( 作 业 jar 文件 、 配 置 文件 和 计算 得 到 的 分 片 ) 复制 到 
HDFS 上。 

@ 告知 JobTracker 作业 准备 执行 (使 用 JobTracker 对 象 的 submitJob( ) 方 法 来 真正 
提交 作业 ) 。 

(2) 作 业 初 始 化 。 

当 JobTracker 收 到 作业 提交 的 请 求 后 ， 将 作业 保存 在 一 个 内 部 队列 ， 并 让 Jo 
Scheduler( 作 业 调度 器 ) 处 理 并 初始 化 。 初始化 涉及 创建 一 个 封装 了 其 Tasks 的 作业 对 象 ， 
并 保持 对 Task 的 状态 和 进度 的 跟踪 。 当 创建 要 运行 的 一 系列 Task 对 象 后 ，Job Schedu- 
ler 首先 开始 从 文件 系统 中 获取 由 JobClient 计算 的 input splits， 然 后 再 为 每 个 split 创建 
MapTask。 

《3) 任 务 的 分 配 。 国 总 就 国 

TaskTracker 和 JobTratker 之 间 的 通信 和 任务 分 配 是 通过 心跳 消息 完 
成 的 。 所 谓 心跳 消息 是 指 发 送 方 按照 一 定 规则 (周期 性 发 送 、 空 闲 发 送 等 ) 回忆 
向 接收 方 发 送 固定 格式 的 消息 ， 接 收 方 收 到 消息 后 回复 一 个 固定 格式 的 消 于】 
息 。 如 果 长 时 间 ( 例 如 心跳 周期 的 3 倍 ) 没 有 收 到 ， 则 认为 当前 连接 失效 ,将 其 断 开 。 其 
中 ,发 送 方 可 以 是 客户 端 或 者 服务 端 ， 根据 实际 情况 而 定 ， 常 见 的 是 客户 端 作为 发 送 方 。 
TaskTracker 作为 一 个 单独 的 JVM， 它 执行 一 个 简单 的 循环 ， 主 要 实现 每 隔 一 段 时 间 向 
obTracker 发 送 心跳 消息 ， 告 诉 JobTracker 此 TaskTracker 是 否 存活 ， 是 否 准 备 执行 新 
的 任务 。 如 果 有 待 分 配 的 任务 ，JobTracker 会 为 TaskTracker 分 配 一 个 任务 。 

(4) 任 务 的 执行 。 

TaskTracker 申请 到 新 的 任务 之 后 ， 就 要 在 本 地 运行 了 。 首 先 ， 是 将 任务 本 地 化 ( 包 
笑 运 行 任务 所 需 的 数据 、 配 置信 息 和 代码 等 )， 即 从 HDFS 复制 到 本 地 ， 再 调用 local- 
izeJob( ) 完 成 的 。 对 于 使 用 Streaming 和 Pipes 创建 Map 或 者 Reduce 程序 的 任务 ，Java 
会 把 Key/Value 传递 给 外 部 进程 ， 然 后 通过 用 户 自 定义 的 Map 或 者 Reduce 进行 处 理 ， 
再 把 Key/Value 传 回 到 Java 中 。 就 好 像 是 TaskTracker 的 子 进程 在 处 理 Map 和 Reduce 
代码 一 样 。 

(5) 更 新 任务 执行 进度 和 状态 。 

进度 和 状态 是 通过 心跳 消息 来 更 新 和 维护 的 。 对 于 MapTask， 进 度 就 是 已 处 理 数据 
和 所 有 输入 数据 的 比例 。 对 于 ReduceTask， 情况 相对 复杂 ,包括 三 部 分 : 复制 中 间 结 果 
文件 、 排 序 和 Reduce 调用 ， 每 部 分 占 1/3。 

@ 
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(6) 作 业 完成 。 
当 作 业 完 成 后 ，JobTracker 会 收 到 一 个 Job Complete 的 通知 ， 并 将 当前 的 作业 状态 
更 新 为 successful， 同 时 JobClient 也 会 按 顺 序 轮流 获知 提交 的 作业 已 经 完成 ， 将 信息 显示 








给 用 户 。 最 后 ，JobTracker 会 清理 和 回收 该 作业 的 相关 资源 ， 并 通知 TaskTracker 进行 

相同 的 操作 (如 删除 中 间 结 果 文 件 ) 。 

MapReduce 运行 的 时 候 ， 会 通过 Mapper 运行 的 任务 读 取 HDFS 中 的 数据 文件 ， 然 

调用 自己 的 方法 处 理 数 据 ， 最 后 输出 。Reducer 任务 会 接收 Mapper 任务 输出 的 数据 作 

己 的 输入 数据 ,调用 自己 的 方法 ,最 后 输出 到 HDFS 的 文件 中 。 

Mapper 任务 的 运行 过 程 可 分 为 以 下 六 个 阶段 。 

(1) 第 一 阶段 是 把 输入 文件 按照 一 定 的 标准 分 片 ， 每 个 InputSplit 的 大 小 是 固定 的 。 

默认 情况 下 ，InputSplit 的 大 小 与 数据 块 的 大 小 是 相同 的 。 如 果 数 据 块 的 大 小 是 默认 值 

64MB， 输 入 文件 有 两 个 ， 一 个 是 32MB， 另 一 个 是 72MB,， 那 么 小 的 文件 是 一 个 In- 

putSplit， 大 文件 会 分 为 两 个 数据 块 ， 对 应 两 个 InputSplits 一 共产 生 三 个 InputSplit。 每 
-个 InputSplit 由 一 个 Mapper 进程 处 理 ， 那么 这 里 的 三 个 InputSplit 会 有 三 个 Mapper 

第 二 阶段 是 对 InputSplit 中 的 记录 按照 一 定 的 规则 解析 成 Key/Value 对 ， 默 认 规 
则 是 把 每 一 行文 本 内 容 解析 成 Key/ Value 对 。 “Key” 是 每 一 行 的 起 始 位 置 ( 单 位 是 字 节 )， 
“Value” 是 本 行 的 文本 内 容 。 

(3) 第 三 阶段 是 调用 Mapper 类 中 的 "Map 方法 。 第 二 阶段 中 解析 出 来 的 每 一 个 Key/ 
Value 对 ， 调 用 一 次 Map 方法 。 如 果 有 1000 个 Key/ Value 对， 就 会 调用 1000 次 Map 方 
法 。 每 一 次 调用 Map 方法 会 输出 零 个 或 者 多 个 Key/Value 对 。 

(4) 第 四 阶段 是 按照 一 定 的 规则 对 第 三 阶段 输出 的 Key/Value 对 进行 分 区 。 比 较 是 基 
于 Key 进行 的 。 例 如 Key 表示 省 份 (如 江苏 、 广 东 、 山 东 等 ;那么 就 可 以 按照 不 同 省 份 
进行 分 区 ， 同 一 个 省 份 的 Key/Value 对 划分 到 一 个 区 中 ,默认 只 有 一 个 区 。 分 区 的 数量 
就 是 Reducer 任务 运行 的 数量 ,默认 只 有 一 个 Reducer 任务 。 

(5) 第 五 阶段 是 对 每 个 分 区 中 的 Key/ Value 对 进行 排序 。 首 先 ， 按 照 Key 进行 排序 ， 
对 于 Key 相同 的 Key/Value 对 ,按照 Value 进行 排序 。 例 如 三 个 Key/Value 对 一 2，2 二 、 
二 1, 3 二 、 二 2, 1 二 Key 和 Value 分 别 是 整数 。 那 么 排序 后 的 结果 是 1，3 二 、 
去 2，1 二 、 志 2，2 二 。 如 果 有 第 六 阶段 那么 进入 第 六 阶段 ; 如 果 没 有 ， 则 直接 输出 到 
本 地 的 Linux 文件 中 。 

(6) 第 六 阶段 是 对 数据 进行 归 约 处 理 ， 也 就 是 Reduce 处 理 。Key 相等 的 Key/Value 
对 会 调用 一 次 Reduce 方 法 。 经 过 这 一 阶段 ， 数 据 量 会 减少 。 归 约 后 的 数据 输出 到 本 地 的 
Linux 文件 中 。 本 阶段 默认 是 没有 的 ， 需 要 用 户 自己 增加 这 一 阶段 的 代码 。 

每 个 Reducer 任务 是 一 个 Java 进程 。Reducer 任务 接收 Mapper 任务 的 输出 ， 归 约 处 
理 后 写 人 到 HDFS 中 ， 可 以 分 为 以 下 三 个 阶段 。 

(1) 第 一 阶段 是 Reducer 任务 会 主动 从 Mapper 任务 复制 其 输出 的 Key/Value 对 。 
Mapper 任务 可 能 会 有 很 多 . 因此 Reducer 会 复制 多 个 Mapper 的 输出 。 

(2) 第 二 阶段 是 把 复制 到 Reducer 本 地 数据 全 部 进行 合并 ， 即 把 分 散 的 数据 合并 成 一 
个 大 的 数据 ， 再 对 合并 后 的 数据 排序 。 
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(3) 第 三 阶段 是 对 排序 后 的 Key/Value 对 调用 Reduce 方法 。Key 相等 的 Key/Value 
对 调用 一 次 Reduce 方 法 ,每 次 调用 会 产生 零 个 或 者 多 个 Key/ Value 对 ， 最 后 把 这 些 输出 
的 Key/Value 对 写 人 HDFS 文件 中 。 


Hadoop 的 集群 环境 ， 大 部 分 的 MapTask 和 ReduceTask 执行 在 不 同 的 
节点 上 。 当 集群 中 运行 多 个 作业 时 ，Task 的 正常 执行 会 大 量 消耗 集群 内 部 
的 网 络 资源 。 这 种 消耗 是 正常 且 不 可 避免 的 , 但 是 可 以 采取 措施 尽 可 能 减 站 
少 不 必 要 的 网 络 资源 消耗 。 另 外 ， 每 个 节点 的 内 部 ， 相 比 于 内 存 , 磁盘 1/O 【shuffle 
对 作业 完成 时 间 的 影响 更 大 。 基 于 此 ，Shuffle 过 程 要 求 如 下 。 流程 图 】 

(1) 完 整地 从 MapTask 端 拉 取 数据 到 ReduceTask 端 。 

(2) 在 拉 取 数据 的 过 程 中 ， 尽 可 能 地 减少 网 络 资源 的 消耗 。 

(3) 尽 可 能 地 减少 磁盘 I/O 对 Task 执行 效率 的 影响 。 








~ 
Shuffle 的 设计 目的 需要 满足 以 下 条 件 。 
可 


(1) 保 证 拉 取 数据 的 完整 性 。 
(2) 尽 可 能 地 减少 拉 取 数据 的 数据 量 。 
(3) 尽 可 能 地 使 用 节点 的 内 存 而 非 磁盘 。 


Shuffle 过 程 ， 也 称 Copy 阶段 。ReduceTask 从 各 个 MapTask 上 远程 复制 一 片 数 据 ， 
并 针对 某 一 片 数 据 ， 如 果 其 大 小 超过 一 定 的 阔 值 :* 则 写 到 磁盘 上 ; 否则 直接 放 到 内 存 中 。 
Shuffle 过 程 是 贯穿 于 Mab 和 Reduce 两 个 过 程 的 : 以 下 分 别 从 Map 端 和 Reduce 端 进行 
介绍 。 

1，Map 端 

Map 节点 执行 MapTask 任务 生成 Map 的 输出 结果 。Shuffle 的 工作 内 容 : 从 运算 效 
率 的 出 发 点 来 看 ，Map 输出 结果 优先 存储 在 Map 节点 的 内 存 中 。 每 个 MapTask 都 有 一 
个 内 存 缓冲 区 ， 存 储 着 Map 的 输出 结果 ， 当 缓冲 区 块 达到 某 个 阔 值 时 ， 需 要 将 缓冲 区 中 
的 数据 以 一 个 临时 文件 的 方式 存 到 磁盘 ， 当 整个 MapTask 结束 后 再 对 磁盘 中 这 个 
MapTask 所 产生 的 所 有 临时 文件 进行 合并 ， 生 成 最 终 的 输出 文件 。 最 后 ， 等 待 Reduce- 
Task 来 拉 取 数据 。 如果 MapTask 的 结果 不 大 ， 能 够 完全 存储 到 内 存 缓冲 区 ， 且 未 达到 内 
存 缓冲 区 的 阔 值 那么 就 不 会 有 写 临 时 文件 到 磁盘 的 操作 ， 也 不 会 有 后 面 的 合并 。 

详细 过 程 :， MapTask 任务 执行 ， 输 入 数据 的 来 源 是 HDFS 的 块 。 在 MapReduce 概念 
中 ，MapTask 读 取 的 是 分 片 。 块 与 分 片 的 对 应 关系 为 一 对 一 。 

(1) 块 (Block 物理 划分 ): 文件 上 传 到 HDFS， 就 要 划分 数据 成 块 ， 这 里 的 划分 属于 

















物理 的 划分 ， 块 的 大 小 可 配置 (默认 第 一 代为 64MB， 第 二 代为 128MB)， 可 通过 
dfs. block. size 配置 。 为 保证 数据 的 安全 ， 块 采用 完 余 机 制 : 默认 为 3 份 ， 可 通过 


dfs. replication 配置 。 当 更 改 块 大 小 的 配置 后 ， 新 上 传 文件 的 块 的 大 小 为 新 配置 的 值 ， 以 








前 上 传 文件 的 块 的 大 小 为 以 前 的 配置 值 。 

(2) 分 片 (Split 逻辑 划分 ): Hadoop 中 分 片 划分 属于 逻辑 上 的 划分 ， 目 的 只 是 让 
MapTask 更 好 地 获取 数据 ， 分 片 是 通过 Hadoop - InputFormat 接口 中 的 getSplit( ) 方 法 
得 到 的 。 

2.， Reduce 端 

当 MapReduce 任务 提交 后 ，ReduceTask 就 不 断 通过 RPC (Remote Procedure Call 
Protocol， 远 程 过 程 调用 协议 )，RPC 是 一 种 通过 网 络 从 远程 计算 机 程序 上 请 求 服务 ， 而 
不 需要 了 解 底层 网 络 技术 的 协议 。 从 JobTracker 那里 获取 MapTask 是 否 完 成 的 信息 ， 如 
果 获 知 某 台 TaskTracker 上 的 MapTask 执行 完成 ，Shuffle 的 后 半 段 过 程 就 开始 启动 。 
ReduceTask 在 执行 之 前 的 工作 就 是 不 断 地 拉 取 当前 作业 里 每 个 MapTask 的 最 终结 果 ， 并 
对 不 同 地 方 拉 取 过 来 的 数据 不 断 地 做 Merge， 也 最 终 形成 一 个 文件 作为 ReduceTask 的 输 
入 文件 。 

(1)Copy 过 程 ， 简 单 地 拉 取 数据 。Reduce 进程 启动 一 些 数据 Copy 线程 ， 通 过 HTTP 方 
式 请 求 MapTask 所 在 的 TaskTracker ， 获 取 MapTask 的 输出 文件 。 因 为 MapTask 早已 结 
束 ， 这 些 文件 就 归 TaskTracker 在 本 地 磁盘 管理 。 

(2)Merge 过 程 。 这 里 的 Merge 同 Map 端的 Merge 动作 ， 只 是 数组 中 存放 的 为 不 同 
Map 端 Copy 过 来 的 数值 。Copy 过 来 的 数据 会 先 放 和 内存 缓冲 区 中 ,这 里 缓冲 区 的 大 小 
要 比 Map 端 更 为 灵活 ， 它 是 基于 JVM. 的 Heap Size 设置 ,因为 Shuffler 阶段 Reducer 不 
和 运行， 所 以 应 该 把 绝 大 部 分 的 内 存 都 给 Shuffle 使 用 。 

Merge 的 三 种 形式 : 内 存 到 内 存 、 内 存 到 磁盘 磁盘 到 磁盘 ， 默认 情况 下 ， 第 一 种 
形式 不 启用 。 当 内 存 中 的 数据 量 达 到 一 定 的 阔 值 ， 就 启动 内 存 到 磁盘 的 Merge。 与 Map 
端 类 似 ， 这 也 是 溢 写 过 程 ， 如 果 这 里 设置 了 Combiner， 也 会 启动 ， 然 后 在 磁盘 中 生成 众 
多 的 溢 写 文件 。 第 三 种 Merge 方式 一 直 在 运行 , 直到 没有 Map 端的 数据 时 才 结 束 ， 然 后 
启动 第 三 种 磁盘 到 磁盘 的 Merge 方式 生成 最 终 的 文件 。 

(3)Reducer 的 输入 文件 。 不 断 地 Merge 后 ,最 后 会 生成 一 个 “最 终 文件 ”"。 这 个 “最 
终 文件 ”直接 作为 Reducer 的 输入 ， 可 能 在 磁盘 中 也 可 能 在 内 存 中 。 上 默认 情况 下 ， 这 个 文 
件 存放 于 磁盘 中 。 当 Reducer 的 输入 文件 已 定 ， 整 个 Shuffle 才 最 终结 束 。 然 后 就 是 Re- 
ducer 执行 ， 把 结果 存放 到 HDFS 上 。 












4.3 MapReduce 的 具体 应 用 


MapReduce 是 一 个 并 行 计算 与 运行 软件 框架 。 它 提供 了 一 个 庞大 又 设计 精良 的 并 行 
计算 软件 框架 ， 能 自动 完成 计算 任务 的 并 行 化 处 理 ， 自 动 划 分 计算 数据 和 计算 任务 ,在 
集群 节点 上 自动 分 配 和 执行 任务 以 及 收集 计算 结果 ,将 数据 分 布 存 储 、 数 据 通 信 、 容 错 
处 理 等 并 行 计算 涉及 的 很 多 系统 底层 的 复杂 细节 交 由 系统 负责 处 理 ， 从 而 减少 了 软件 开 
发 人 员 的 负担 。MapReduce 可 以 很 好 地 应 用 于 各 种 计算 问题 ， 这 里 以 关系 代数 运算 、 分 
组 与 聚合 运算 、 和 矩阵 -向 量 乘法 、 和 矩阵 乘法 为 例 ， 介绍 如 何 采用 MapReduce 计算 模型 来 实 
现 各 种 运算 。 

















43.1 MapReduce 在 关系 代数 运算 中 的 应 用 


1. 选择 运算 

Map 函数 : 对 关系 R 中 的 每 个 元 组 :， 检查 它 是 否 满足 条 件 C。 如 果 满 足 就 产生 
Key/Value 对 (t, 1)，, 

Reduce 函数 : Reduce 函数 作用 类 似 于 恒等式 ,仅仅 将 每 个 Key/ Value 对 传递 到 输出 部 分 。 

2. 投影 运算 

Map 末 数 : 对 关系 有 尺 中 的 每 个 元 组 上 :， 通 过 剔除 : 中 属性 不 在 S 中 的 字段 得 到 元 组 t+， 
输出 Key/Value 对 (r，D) 。 

Reduce 函数 :对 任意 Map 任务 产生 的 每 个 Key zx， 将 存在 一 个 或 多 个 Key/ Value 对 (t, 7)， 
Reduce 函数 将 (1，[+，…, 门 ) 转 换 成 ([，z)， 以 保证 对 该 Key 1 只 产生 二 个 (1， 7 对。 

区 过 皇 

(1) 并 运算 。 

Map 函数 : 将 每 个 输入 元 组 上 转换 为 Key/ Value 对 (zt，2) 。 

Reduce 函数 ， 和 每 个 Key t 关联 的 可 能 有 一 个 或 两 个 Value， 两 种 情况 下 都 输 





(2) 交 运算 。 

Map 函数 ， 将 每 个 输入 元 组 % 转换 为 Key/Value 对 (V1)。 

Reduce 函数 : 如果 Key1 的 值 表 为 [1， 汪 ， 则 输出 Ce 7+) ;否则 输出 (t+，NULL)。 

(3) 差 (关系 R-S 的 差 ) 运 算 。 

Map 函数 ， 对 于 R 中 的 元 组 :， 产 生 Key/Value 对 (1，R); 对 于 S 中 的 元 组 :， 产 生 
Key/Value 对 (1, SS) 

Reduce 函数 :> 对 每 个 Key 进行 如 下 人 处理: 

@ 如 果 关 联 的 Value 表 是 [R]， 输 出 (5(，2); 

@ 如 果 相 关联 的 Value 表 必 于 其 他 情况 . 包括 [R，S]、[S，S]J 或 [Sj]， 则 输出 
(1, NULL), 

4. 自然 链接 运算 (将 R(A，B) 和 S(B，c) 进 行 自然 链接 运算 ) 


Map 肾 数 ， 对 R 中 的 每 个 元 组 (a. 5) 生 成 Key/Value 对 (5，(R，a))， 对 S 中 的 每 
个 元 组 (0，c) 生 成 Key/ Value 对 (0，(S，c)) 。 

Reduce 图 数 : 每 个 Key/Value 对 b 会 与 一 系列 对 相关 联 ， 这 些 对 要 人 么 来 自 (R，a)， 
要 么 来 自 (S,c), 基于 (R. a) 和 (S., c) 构 建 的 所 有 对 。Key b 对 应 的 输出 结果 是 (0， 
[Ca 6， a)，(as，b，cs),，*…])， 即 与 5 相关 联 的 元 组 列表 由 来 自 R 和 S 中 的 具有 共同 
bValue 的 元 组 组 合 而 成 。 

5. 分 组 和 聚合 运算 

分 组 运算 是 指 按照 属性 集合 (分 组 属性 )G 中 的 值 对 元 祖 进行 分 割 ， 然 后 对 每 个 组 的 值 
按照 某 些 其 他 属性 进行 聚合 运算 ， 即 将 一 个 聚合 运算 函数 应 用 到 各 个 分 组 ， 并 产生 一 个 




















新 值 。 最 后 ， 所 有 这 些 函 数 的 执行 结果 会 被 合并 到 最 终 的 结果 对 象 中 。 通 常 的 聚合 运算 
包括 : SUM( 求 和 )、COUNT( 计 数 )、AVG( 求 平均 值 )、MIN( 求 最 小 值 ) 和 MAX( 求 最 
大 值 )， 每 个 运算 的 意义 都 非常 明显 。 

聚合 运算 中 的 MIN 和 MAX， 要 求 聚 合 的 属性 类 型 必须 具有 可 比 性 ， 如 数字 或 者 字 
符 串 类 型 ， 而 SUM 和 AVG 则 要 求 属性 的 类 型 能 够 进行 算数 运算 。 关 系 R 上 的 分 组 一 聚 
合 运算 记 为 yx(R)， 其 中 X 为 一 个 元 素 表 ， 每 个 元 素 可 以 是 : 

(1) 一 个 分 组 属性 ; 

(2) 表 达 式 0(A)， 其 中 0 是 上 述 五 种 聚合 运算 之 一 ， 而 A 是 一 个 非 分 组 属性 。 

例如 ,对 关系 R(A，B，C) 施 加 运算 y. 4.0. (R)， 那么 

Map 函数 : 对 每 个 元 组 (a, 5，c)， 生 成 Key/Value 对 (a, 6b)。 

Reduce 函数 : 每 个 Key a 代表 一 个 分 组 ， 即 对 与 Key a 关联 的 字段 上 的 Value 表 
[6 ，bs，…b,]」 施加 0 操作 ， 输 出 结果 是 (ae，z) 对 。 

MapReduce 的 具体 应 用 将 在 下 面 两 小 节 中 进行 介绍 。 


MapReduce 在 矩阵 乘法 中 的 应 用 。 


和 矩阵 乘法 要 求 左 矩阵 的 列 数 与 右 和 矩阵 的 行 数 相等 六 X7 的 矩阵 4 与 Xp 的 矩阵 B 
相 乘 ， 结 果 为 mXp 的 矩阵 C， 如 下 式 














(AB), Daiby anby 十 azpboj 十 … 十 aanpbw 


为 了 方便 描述 ， 先 进行 假设 ; 

(1) 和 矩阵 4 的 行 数 为 m= 列 数 为 n，ai 为 矩阵 A 第 i 行 7 列 的 元 素 ; 

(2) 和 矩阵 B 的 行 数 为 x， 列 数 为 p，b; 为 矩阵 BB 第 二 行 j 列 的 元 素 。 

因为 分 布 式 计算 的 特点 ,需要 找到 相互 独立 的 计算 过 程 ， 以 便 能 够 在 不 同 的 节点 上 
进行 计算 而 不 会 彼此 影响 。 根 据 和 矩阵 乘法 的 公式 ，C 中 各 个 元 素 的 计算 都 是 相互 独立 的 ， 
即 各 个 cy 在 计算 过 程 中 互 不 影响 。 因 此 在 Map 阶段 可 以 把 计算 所 需要 的 元 素 都 集中 到 同 
一 个 Key 中 ,然后 在 Reduce 阶段 就 可 以 从 中 解析 出 各 个 元 素 从 而 计算 c; 。 另 外 ， 以 an 
为 例 ， 它 将 会 在 cu 、ce…cup 的 计算 中 使 用 。 即 在 Map 阶段 ， 当 从 HDFS 取出 一 行 记 录 
时 ， 如 果 该 记录 是 4 的 元 素 ， 则 需要 存储 成 个 二 Key,Value 二 对 ， 并且 这 pp 个 Key 互 
不 相同 ;， 如果 该 记录 是 B 的 元 素 ， 则 需要 存储 成 m 个 二 Key. Value 王 对 ,同样 的 , mm 个 
Key 也 应 互 不 相同 ; 但 同时 ,用 于 存放 计算 Gj 的 aiy、ai…as 和 Db;、bs…b, 的 二 Key， 
Value 二 对 的 Key 都 是 相同 的 ， 从 而 保证 被 传递 到 同一 个 Reduce 中 。 

1， Map 阶段 

在 Map 阶段 ， 需 要 进行 数据 准备 。 把 来 自 和 矩阵 4 的 元 素 a 标识 成 p 条 
二 Key,Value 二 的 形式 ，Key 二 “i,k”，( 其 中 =1, 2, …, p),，Value= “a: j, as”; 把 
来 自 矩 阵 B 的 元 素 b; 标识 成 mm 条 二 Key. Value 记 形式 ，Key 二 “k，j”( 其 中 有 =1,，2,…， 
m), Value= “b: i, b;”。 

经 过 处 理 ， 用 于 计算 必需 要 的 w、2 就 转变 为 有 相同 Key(“i,j”) 的 数据 对 ， 通 过 
Value 中 “a:” 和 “0:” 能 区 分 元 素 是 来 自 抢 阵 4 还 是 和 矩阵 B， 以 及 具体 的 位 置 ( 在 矩阵 
A 的 第 几 列 ， 在 矩阵 B 的 第 几 行 )。 











[er item ED 


2. shuffle 阶段 


这 个 阶段 是 Hadoop 自动 完成 的 阶段 ， 具 有 相同 Key 的 Value 被 分 到 同一 个 接口 Ite- 
rable 中 ， 形 成 二 Key,Iterable(Value) 二 对 ， 再 传递 给 Reduce。 

3，Reduce 阶段 

通过 Map 数据 预 处 理 和 Shuffle 数据 分 组 两 个 阶段 ，Reduce 阶段 需要 明确 以 下 两 点 。 

(1) 一 Key,Iterable(Value) 过 对 经 过 计算 得 到 的 是 矩阵 C 的 哪个 元 素 ? 因为 Map 阶段 
对 数据 的 处 理 ，Key(i，j) 中 的 数据 对 就 是 其 在 矩阵 C 中 的 位 置 ,第 i 行 第 j 列 。 

(2)Iterable 中 的 每 个 Value 来 自 和 矩阵 4 和 矩阵 马 的 哪个 位 置 ? 这 个 也 在 Map 阶段 进 
行 了 标记 ， 对 于 Value(z: y，z)， 只 需要 找到 与 y 相同 的 来 自 不 同 矩阵 ( 即 x 分 别 为 a 和 
0 的 两 个 元 素 ， 取 = 相 乘 ， 然 后 加 和 即 可 。 


MapReduee 在 和 矩阵- 向量 乘法 中 的 应 用 
假定 有 一 个 nxn 的 矩阵 M， 其 第 ; 行 第 7 列 的 元 素 记 为 ww ; 假定 有 一 个 维 向 量 v， 其 第 j 
个 元 素 记 为 ww 。 于 是 ,矩阵 M 和 向 量 的 乘积 结果 是 一 个 双 维 向 量 x， 其 第 ;个 元 素 为 忆 
Xi 二 Sn 
和 矩阵 M 和 向 量 v 会 各 自在 分 布 式 文件 系统 中 存 成 一 个 文件 。 每 个 Map 任务 将 整个 向 量 
v 和 矩阵 M 的 一 个 文件 块 作为 输入 .对 每 个 矩阵 元 素 ，Map 任务 会 产生 二 Key，Value 二 对 
二 i,m 之，Reduce 任务 将 所 有 与 给 定 Key i 关联 的 Value 相 加 即 可 得 到 一 ,zi 二 。 


例如 : 
11 22 33 
33 44 55 


66 77 88 





按照 矩阵 乘法 相关 规则 可 得 
zo 一 11X2 十 22X3 十 33X4 一 220 
zi 一 33X2 十 44X3 十 55X4 一 418 
zs=66X2 二 77X3 十 88X4=715 





因此 


11 22 33 
33 44 55|X(2 3 4)=(220 418 715) 
66 77 88 


ss 
链 注意 : 
WY 


(1)Map 函数 。 对 答 阵 元 素 m;，Map 任务 会 产生 二 Key，Value 记 对 (i， mijv;)。 因 
此 ,计算 xz, 的 所 有 nn 个 求 和 项 mivj 的 二 Key，Value 二 都 相同 。 
(2) Reduce 函数 。Reduce 任务 将 所 有 与 给 定 Key i 关联 的 Value 相 加 即 可 得 到 (i， 
Zi)， 其 算法 逻辑 图 如 图 4.2 所 示 。 
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Map 









(0,11*2) 

(0,22#3) 计算 公式 
11 22 33 (0,33*4) (i, mar)) 
33 44 55 (1,33#2) + 汶 焦 阵 的 行 号 


66 77 88 (1,44*3) 为 矩阵 的 列 号 
(155*4) 












(0,220) (0,11*2+22+3+33*4) 《0,[11*2, 22*#3, 33*4] ) 
(1,418) (1,33#2+44*3+55*4) (1,[33*2, 44*3, 55*4] ) 
(2,715) (2,66#2+77*3+88*4) (2,[66*2, 77*3, 88*4] ) 





将 各 自 的 Key 的 
Value 相 加 ， 相 当 于 | 


em 
0 


图 本人、Reduce 函数 算法 逻辑 图 


图 4.2 中 ， 如 果 的 Value 过 大 ,使 得 向 量 v 无 法 完全 放 和 内存 中 ， 就 会 导致 大 量 的 
磁盘 访问 。 一 种 替代 方案 是 ,将 矩阵 分 割 成 多 个 宽度 相等 的 垂直 条 ， 同 时 将 向 量 分 割 成 
同样 数目 的 水 平 条 ， 每 个 水 平 条 的 高 度 等 于 矩阵 垂直 条 的 宽度 。 和 矩阵 第 ;个 垂直 条 只 和 第 
i 个 水 平 条 相 乘 ， 因 此 可 以 将 矩阵 的 每 个 条 存 成 一 个 文件 。 同 样 ， 将 向 量 的 每 个 条 存 成 一 
个 文件 。 和 矩阵 某 个 条 的 一 个 文件 块 及 对 应 的 完整 向 量 条 输送 到 每 个 Map 任务 。 然 后 ， 
Map 任务 和 Reduce 任务 可 以 按照 前 述 过 程 进行 处 理 。 


鸭 >》 折 民 站 读 +-1 













聚 类 算法 的 MapReduce 并 行 化 分 析 
聚 类 算法 的 MapReduce 并 行 化 分 析 见 表 4-3。 
表 4-3 聚 类 算法 的 MapReduce 并 行 化 分 析 
聚 类 算法 基本 原理 效率 分 析 | MapReduce 并 行 化 分 析 
首先 随机 选择 尺 个 对 象 ， 每 个 对 象 代表 
一 个 闭 的 初始 均值 和 中 心 。 对 剩余 的 每 个 
对 象 ， 根 据 它 与 各 个 给 的 均值 的 距离 ， 将 
其 指派 到 最 相似 的 禾 。 然 后 计算 每 个 灸 的 
新 均值 。 过 程 不 断 重 复 直到 准则 函数 收 化 








K- Means 
(一 种 迭代 
求解 的 聚 类 | 
分 析 算 法 ) 


时 间 复 杂 从 逻辑 上 分 为 三 部 分 : 聚 
度 O (nki)、| 类 中 心 初 始 化 、 和 迭代 更 新 聚 
空间 复杂 度 | 类 中 心 、 聚 类 标注 , 均 可 并 
OCR) 行 化 处 理 


















































聚 类 算法 基本 原理 效率 分 析 | MapReduce 并 行 化 分 析 
与 K- Means 相似 ，CLARANS 也 是 以 聚 
心 划 分 聚 类 的 , 一 旦 kk 心 
CLARANS hn 0 时 间 复 条 | 从 逻辑 上 分 为 三 部 分 ， 形 
(基于 随机 | ” 度 O(n-2)、| 类 中 心 和 邻 域 样本 初始 化 、 
过 择 的 儿 庆 | KMeans 生 法 以 类 装 的 样本 均值 代表 芭 类 中 | 空间 复 东 应 | 过 代 更 新 关中 心 ， 取 类 术 
算法 ) | 心 ， 耐 CLARANS 采 用 每 个 著 中 选择 一 个 世 Bs te 沁 
纪 的 对 象 代表 该 禾 。 其余 的 将 每 个 对 象 聚 类 | 
到 其 最 相似 的 代表 性 对 象 所 在 的 答 中 
DBSCAN DBSCAN 是 一 种 基于 密度 的 聚 类 算法 ， ” 
从 上 分 为 三 :机 
(具有 噪声 | 与 划分 和 层次 聚 类 算法 不 同 ， 它 将 禾 定 义 网 Dn 
n 下 、 
的 基于 密 记 为 密度 相连 的 点 的 最 大 集合 ， 能 够 将 足够 |。 汪 旬 来 及 | 类 腾 类 标注 ， 均 可 并 行 化 
的 聚 类 | 高 的 密度 区 域 划分 为 将， 并 可 以 在 有 噪声 |， A 了 洒 
算法 ) | 的 空间 数据 中 发 现任 意 形状 的 聚 类 
i BIRTH 算法 利用 层次 方法 的 平衡 选 代 
规约 和 聚 类 ， 是 一 个 综合 的 层次 聚 类 方 
( b 完 
| 法 ， 它 用 聚 类 特征 和 聚 类 特征 树 概 蜂 取 ee 不 适合 对 分 隔 的 数据 进行 
扩 坊 声 交 类 特征 ， 该 算法 可 以 通过 聚 类 特征 方便 ON 处 理 , 而 且 是 增 量 计算 的 
4 1 
和 地 进行 中 心 、 半 径 、 直 径 汉 及 业内、 类 
间距 离 的 计算 
Chameleon 是 在 一 个 层次 聚 类 中 采用 动 
态 模型 进行 聚 类 的 方法 。 在 它 的 聚 类 过 
Chamel 程 中 ， 如 果 两 个 禾 间 的 互联 性 和 近似 度 时 间 复 杂 
( 朗 色 龙 | 与 多 内 部 对 象 间 的 互联 性 和 近似 庚 高 度 | 度 QCn-2)、| 。 不 这 合 对 分 隔 的 数据 进行 
算法 ) | 相关 > 到 合并 这 两 个 锋 。 基 于 动态 模型 | 空间 复杂 度 | 处 理 
的 合并 过 程 有 利于 自然 的 聚 类 发 现 ， 而 | O(n) 
且 只 要 定义 了 相似 度 函 数 就 可 以 应 用 于 
所 有 类 型 的 数据 
STING 是 一 种 基于 网 格 的 多 分 辩 率 聚 类 
 ， 它 将 空 用 划 x 形 元 ， 和 
STING | 技术 ， 它 将 空间 区 坡 划 分 为 把 形 单元 , 针 | 时 间 复 杂 | 算法 的 数据 分 隔 丰 是 简单 
对 不 同 级 别 的 分 状 率 ， 通 常 存在 多 个 级 别 | 度 O(n)、 空 人 _ EE 
(统计 信息 的 块 分 隔 ， 不 适合 并 行 化 
两 稿 9 的 矩形 单元 ， 这 些 单元 形成 了 一 个 层次 结 | 间 复 杂 度 O 是 这 
构 。 高 层 的 每 个 单元 划分 为 多 个 第 一 层 的 | (1) 
单元 
注 ; 为 样本 的 个 数 , 为 类 簇 的 个 数 ，i 为 算法 的 迭代 次 数 ，; 为 每 次 抽样 的 个 数 ，4d 为 样本 的 属 





个 数 。 








基于 MapReduce 的 K- Means 的 并 行 化 实现 
1. 传统 K- Means 的 算法 原理 


输入 : AR。 

输出 ; & 个 徐 。 

过 程 :首先 人 为 指定 R 个 对 象 作为 答 中 心 ， 然 后 计算 每 个 对 象 到 所 有 徐 中 心 的 距离 。 
每 个 对 象 中 ， 距 离 最 小 的 徐 中 心 为 该 对 象 的 徐 中 心 ， 并 把 该 对 象 划分 到 该 徐 中 。 对 分 好 
的 所 有 徐 进 行 重 新 计算 ， 得 到 新 的 徐 中 心 ， 然 后 重复 上 述 过 程 ， 直 到 所 有 答 中 心 不 变 。 

分 析 : 上 述 算法 中 ， 有 些 必须 串 行 化 实现 ， 有 些 可 以 并 行 化 。 串 行 化 的 部 分 必须 通 
过 轮 与 轮 之 间 的 迭代 实现 ， 并 行 化 的 部 分 可 以 通过 MR 的 每 一 轮 实现 。 迭 代 与 移 代 之 间 
属于 串 行 的 ; 每 一 轮 迭 代 中 ， 都 会 计算 所 有 对 象 与 中 心 点 之 间 的 距离 ， 而 这 些 是 不 相关 
的 ， 所 以 计算 每 个 对 象 和 中 心 之 间 的 距离 可 以 并 行 化 实现 。 


2. 基于 MR 的 K-Means 算法 的 并 行 化 设计 


Map 任务 : 对 每 个 对 象 进行 相同 的 计算 ;“ 即 计算 该 对 象 与 所 有 中 心 的 距离 。 选 择 距 
离 最 小 者 ， 并 把 该 中 心 作 为 该 对 象 所 在 繁 的 中 心 。 

输入 : 所 有 的 往 中 心 ，Key- 偏 移 ，Value- 对 象 值 。 

输出 : Key- 该 对 象 的 簇 由 心心 Value- 该 对 象 的 其 他 一 些 信息 。 

Combine 作用 : 计算 有 相同 徐 中 心 的 所 有 对 象 的 距离 之 和 ， 以 及 这 些 对 象 的 数目 。 

输入 : 上 一 轮 Map 的 输出 二 Key, Value 二 做 过 Shuffle 处 理 后 的 值 Key,V 二 ，V 是 
相同 艇 中 心 的 对 象 列表 。 

输出 二 Key, Value 二 ，Key 还 是 徐 中 心 的 Index，Value 是 对 象 距离 之 和 以 及 对 象 
数目 的 组 合 。 

过 程 ， 初始化 数组 且 存 放 所 有 对 象 。 初 始 化 int 型 变量 为 0， 用 来 存放 对 象 数目 。 通 
过 循环 ， 求 和 及 数目 。 

Reduce 作用 : 计算 新 的 答 中 心 ， 并 且 更 新 。 

输入 :一 Key,Value 二 ，Key 是 徐 中 心 Index，Value 是 上 述 Combine 输出 的 那些 来 
自 相 同 主机 的 Value 组 成 的 列表 。 

输出 <Key, Value 二 ，Key 是 所 有 徐 中 心 的 Index，Value 是 更 新 后 的 徐 中 心 的 
距离 。 

多 次 近代 ,设置 收 全 条 件 即 可 。 

https://blog. csdn. net/zhanghaodx082/article/ details/21336437 


鲍 》 拓 民间 读 4-3 
MapReduce 如 何 解决 数据 倾斜 问题 ? 
简单 来 说 ， 数 据 倾 斜 就 是 数据 的 Key 的 分 化 严重 不 均 ， 造 成 一 部 分 数据 很 多 ， 一 部 











分 数据 很 少 的 局 面 。 举 个 词汇 统计 (Word Count) 的 入 门 例子 ， 它 的 Map 阶段 就 是 形成 
(“aaa”，1) 的 形式 ,然后 在 Reduce 阶段 进行 Value 相 加 ， 得 出 “aaa” 出 现 的 次 数 。 若 进 
行 词汇 统计 的 文本 有 100GB， 其 中 80GB 全 部 是 “aaa”， 剩 下 20GB 是 其 余 单 词 ， 那 么 就 
会 形成 80GB 的 数据 量 交 给 一 个 Reduce 进行 相 加 ， 其 余 20GB 根据 不 同 的 Key 分 散 到 不 
同 Reduce 进行 相 加 的 情况 。 如 此 就 造成 了 数据 倾斜 ， 现 实情 况 就 是 Reduce 运行 到 99%， 
然后 一 直 在 原 地 等 着 80GB 的 Reduce 运行 完 。 数 据 经 过 Map 后 ， 由 于 不 同 Key 的 数据 量 
分 布 不 均 ， 在 Shuffle 阶段 中 通过 Partition 将 相同 的 Key 的 数据 打上 发 往 同 一 个 Reducer 
的 标记 ， 然 后 开始 Spill( 溢 写 ) 写 入 磁盘 ， 最 后 Merge 成 最 终 Map 阶段 输出 文件 。 

从 另外 的 角度 来 看 数据 倾斜 ， 其 本 质 还 是 单 台 节点 在 执行 那 部 分 数据 Reduce 任务 的 
时 候 ， 由 于 数据 量 大 运行 不 动 ， 造 成 任务 卡 住 。 若 是 这 台 节 点 机 器 内 存 够 大 ，CPU、 网 
络 等 资源 充足 ， 运 行 80GB 左右 的 数据 量 和 运行 10MB 数据 量 所 耗 时 间 相 差 不 是 很 大 ， 那 
么 也 就 不 存在 问题 。 所 以 机 器 配置 和 数据 量 存在 一 个 合理 的 比例 修一 旦 数据 量 远 超 机 器 
的 极限 ， 那 么 不 管 每 个 Key 的 数据 如 何 分 布 ， 总 会 有 一 个 及 ey 的 数据 量 超出 机 器 的 能 力 ， 
造成 Reduce 缓慢 甚至 卡 顿 。 

业务 逻辑 造成 的 数据 倾斜 会 多 很 多 ,日 常 使 用 过 程 中 ， 容 易 造 成 数据 倾斜 的 原因 可 
以 归纳 为 以 下 几 点 。 

(1) 分 组 : Group by 优 于 Distinct Group。 

(2) 情 形 :， Group by 维度 过 小 ， 某 值 的 数量 过 多 。 

(3) 后 果 : 处 理 某 值 的 Reduce 非常 耗 时 去 重 Distinct Count(Distinct xx)。 

(4) 情 形 ， 某 特殊 值 过 多 后 果 是 处 理 此 特殊 值 的 Reduce 耗 时 连接 Join。 

(5) 情 形 1: 其 中 一 个 表 较 小 ， 但 是 Key 集中 。 

(6) 后 果 1: 分 发 到 某 一 个 或 几 个 Reduce 上 的 数据 远 高 于 平均 值 。 

(7) 情 形 2， 大 表 与 大 表 ， 但 是 分 桶 的 判断 字段 0 值 或 空 值 过 多 。 

(8) 后 果 2: /这 些 空 值 都 由 一 个 Reduce 处 理 ， 非 常 慢 。 

解决 数据 倾斜 的 常用 方法 有 以 下 几 种 。 

(1) 调 优 参数 ”set hive. map. aggr 一 true; set hive. groupby. skewindata=true; 

很 多 同学 多 次 使 用 过 这 两 个 参数 ,但 是 他 们 不 了 解 这 两 个 参数 是 怎么 解决 数据 倾斜 
问题 的 ， 是 从 哪个 角度 着 手 的 。hive. map. aggr 二 true 在 Map 中 会 做 部 分 聚集 操作 ， 效 率 
更 高 但 需要 更 多 的 内 存 。hive. groupby. skewindata 一 true 数据 倾 儿 时 负载 均衡 ， 当 选项 
设 定 为 true 时 ， 生 成 的 查询 计划 会 有 两 个 MRJob。 第 一 个 MRJob 中 ，Map 的 输出 结果 
集合 会 随机 分 布 到 Reduce 中 ,每 个 Reduce 做 部 分 聚合 操作 并 输出 结果 ， 这 样 处 理 的 结 
果 是 相同 的 Group by Key 有 可 能 被 分 发 到 不 同 的 Reduce 中 ， 从 而 达到 负载 均衡 的 目的 
第 二 个 MRJob 再 根据 预 处 理 的 数据 结果 按照 Group by Key 分 布 到 Reduce 中 (这 个 过 程 
可 以 保证 相同 的 Group by Key 被 分 布 到 同一 个 Reduce 中 )， 从 而 完成 最 终 的 聚合 操作 。 

由 上 面 可 以 看 出 ， 起 到 至 关 重 要 作用 的 其 实 是 第 二 个 参数 的 设置 ， 它 使 计算 变 成 了 
两 个 MapReduce， 先 在 第 一 个 MapReduce 中 的 Shuffle 过 程 Partition 时 随机 给 Key 打 标 
记 ， 使 每 个 Key 随机 均匀 分 布 到 各 个 Reduce 上 计算 。 但 这 样 只 能 完成 部 分 计算 ， 因 为 相 
同 的 Key 没有 分 配 到 相同 的 Reduce 上 ,所 以 需要 第 二 次 MapReduce。 这 次 就 回归 正常 
Shuffle， 但 是 数据 分 布 不 均匀 的 问题 在 第 一 次 MapReduce 时 已 经 有 了 很 大 的 改善 ， 因 此 








基本 解决 数据 倾 针 问题 。 

(2) 在 Map 阶段 将 造成 倾斜 的 Key 先 分 成 若干 组 ， 如 aaa 这 个 Key。Map 时 随机 在 
aaa 后 面 加 上 1、2、3、4 这 四 个 数字 之 一 ， 把 Key 先 分 成 四 组 ， 先 进行 一 次 运算 ， 之 后 
再 恢复 Key 进行 最 终 运算 。 

(3) 能 先进 行 Group 操作 时 先进 行 Group 操作 ， 把 Key 先进 行 一 次 Reduce， 之 后 再 
进行 Count 或 者 Distinct Count 操作 。 

(4)Join 操作 中 ,使 用 Map Join 在 Map 端 就 先进 行 Join， 以 免 到 Reduce 时 卡 住 。 

以 上 4 种 方式 ， 都 是 根据 数据 倾 儿 形成 的 原因 进行 的 一 些 变 化 : 要 么 将 Reduce 端的 
隐患 在 Map 端 就 解决 ， 要 么 就 是 对 Key 的 操作 ， 以 减缓 Reduce 的 压力 。 总 之 ， 了 解 了 
原因 再 去 寻找 解决 之 道 就 相对 容易 多 了 。 当 然 方 法 可 能 不 止 这 4 种 。 

https: //www. zhihu. com/question/27593027/answer/248861446 


本 章 小 结 


MapReduce 编程 模型 适用 于 处 理 那些 具有 大 规模 的 输入 数据 集 并 且 计算 过 程 可 以 分 
布 到 多 个 计算 节点 上 的 应 用 。MapReduce 设计 止 向 “外 ”横向 扩展 ， 而 非 向 “上 ”纵向 
扩展 ， 失 效 被 认为 是 常态 ， 把 处 理 向 数据 迁移 ,顺序 处 理 数据 以 避免 随机 访问 数据 ， 为 
应 用 开发 者 隐藏 系统 层 细 节 ， 具 备 平 滑 无 缝 的 可 扩展 性 。 本 章 对 并 行 计算 框架 MapRe- 
duce 的 相关 知识 进行 了 阐述 ， 介 绍 了 分 布 式 并 行 编程 ， 介 绍 了 MapReduce 的 工作 流程 ， 
详解 了 MapReduce 的 各 个 执行 阶段 ， 还 对 MapReduce 的 具体 应 用 给 出 了 相应 的 示范 
实例 。 


2 
全 关键 术语 
9 


(1) 分 布 式 并 行 编 程 (2)Map (3)Reduce (4)Shuffle 
(5)Partitioner (6)Jobtracker (7)Tasktracker 

习 题 
1. 选择 题 


(1)MapReduce 是 一 种 可 用 于 数据 处 理 的 编程 框架 ， 是 一 种 并 行 可 扩展 的 计算 模型 ， 
并 且 有 较 好 的 容错 性 ， 主 要 用 于 解决 ( ) 数 据 的 批 处 理 。 


A. 海量 离线 。 B. 海量 在 线 C. 少量 离线 D. 少量 在 线 
(2) 一 个 完整 的 MapReduce 作业 流程 包括 ( ) 个 独立 的 实体 。 

A. 3 B. 4 GG D. 6 
(3)Merge 的 三 种 形式 不 包括 下 列 ( 9 

A. 内 存 到 内 存 B. 内 存 到 磁盘 

C. 磁盘 到 磁 益 D. 磁盘 到 内 存 


(4) 为 保证 数据 的 安全 ，Block 采用 宛 余 机 制 ， 默 认为 ( ) 份 。 











A. 2 B 3 C. 4 了 .5 
(5) 下 面 主要 用 于 描述 输入 数据 的 格式 ， 提 供 数据 切 分 功能 的 是 ( i 


A. InputFormat B. OutputFormat 
C. Mapper D. Partitioner 
(6)Reducer 任务 接收 Mapper 任务 的 输出 ， 归 约 处 理 后 写 入 到 ( ) 中 。 
A. NTFS B. HDFS GC. NFS D. 磁盘 
2. 判断 题 
(1)Google 使 用 MapReduce 的 并 行 编程 模型 进行 分 布 式 并 行 编程 ， 运 行 在 GFS 的 分 
布 式 文件 系统 上 ， 为 全 球 亿 万 用 户 提供 搜索 服务 。 K ) 
(2)Hadoop 不 完全 支持 MapReduce 模型 。 ( ) 
(3)Map 初始 化 数据 的 读 入 和 和 转换， 独立 的 输入 记录 是 被 顺序 处 理 的 。 ( ) 
(4)Reduce 处 理 数据 的 组 合 和 抽样 ， 关 联 的 数据 必须 通过 一 个 模块 进行 集中 处 理 。 
( ) 
(5) 一 个 作业 执行 过 程 中 有 一 个 Jobtracker 和 和 个 Tisktracker, 分 别 对 应 于 HDFS 
中 的 NameNode 和 DataNode。 ( 
(6)Map 输出 的 中 间 结 果 会 先 放 在 内 存 缓冲 区 中 K ) 
3, 简 答题 


(1)MapReduce 中 排序 发 生 在 哪 几 个 阶段 ? 这 些 排序 是 否 可 以 避免 ? 为 什么 ? 

(2) 什 么 是 Combiner? 什么 情况 下 使 用 Combiner? 什么 情况 下 不 使 用 ? 

(3) 编 写 MapReduce 作 才 时 % 如 何 做 到 在 Reduce 阶段 先 对 Key 排序 再 对 Value 
排序 ? 

(4 位 壕 分 布 式 编程 放 法 的 证 个 步 对 

(5) 简 述 Reducer 过 程 。 

(6)Shuffle 的 设计 目的 需要 满足 哪些 条 件 ? 





第 与 章 
分 布 式 数 据 仓 库 Hive 
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知识 要 点 掌握 程度 相关 知识 
Hive 的 基本 架构 掌握 Hive 梨 构图 
Hive 的 工作 原理 熟悉 Hive 和 Hadoop 之 间 的 工作 流程 和 交互 方式 
Hive 的 数据 组 织 了 解 Hive 的 存储 结构 
Hive 的 数据 类 型 和 文件 格式 掌握 Hive 的 基本 数据 类 型 、 复 杂 数 据 类 型 及 文件 格式 
动态 与 传统 关系 库 分 区 的 异同 及 动 3 
Hive 动态 分 区 热 赤 动态 分 区 5 传统 关系 型 数据 库 分 区 的 异同 及 动态 分 
区 的 步 又 
Hive 索引 熟悉 Hive 索引 定义 及 建立 过 程 
ce Hive 创 建 表 定义 的 三 种 方式 , 使 用 HiveQL 进行 
elds 3 数据 导入 和 导出 的 方法 ，HiveQL 查询 








Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 ， 它 可 以 将 结构 化 的 数据 文件 映射 为 一 张 
数据 库 表 ， 并 提供 简单 的 SQL 查询 功能 ,也 可 以 将 SQL 语句 转换 为 MapReduce 任务 运 
行 。Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 ， 它 提供 了 一 系列 工具 ， 可 用 来 进行 
数据 的 抽取 、 转 化 和 加 载 ， 是 一 种 可 以 存储 、 查 询 和 分 析 存储 在 Hadoop 中 的 机 制 。 


5.1 Hive 简介 


Hive 架构 建立 在 Hadoop 之 上 ， 最 初 由 Facebook 开发 ， 后 来 由 Apache 软件 基金 会 





7 Hive 的 基本 架构 


Hive 是 一 种 以 SQL 风格 进行 数据 分 析 的 工具 ， 其 特点 是 采取 类 似 关 
系数 据 库 的 SQL 命令 。Hive 通过 SQL 处 理 Hadoop 的 大 数据 ， 数 据 规 
模 可 以 扩展 到 100PB 十 ， 数 据 形式 可 以 是 结构 化 数据 或 非 结构 化 数据 。 





【结构 化 数据 和 
非 结构 化 数据 】 








Hive 与 传统 关系 型 数据 库 相 比 有 以 下 几 个 特点 ， 可 | 
(1) 侧 重 于 分 析 ， 而 非 实时 在 线 交 易 ，; 3 
(2) 没 有 事务 机 制 ， ee 
(3) 不 像 关系 型 数据 库 那 样 可 以 随机 进行 插入 或 更 新 ， Ea 


(4) 通 过 Hadoop 的 MapReduce 进行 分 布 式 处 理 ， 传 统 关 系 型 数据 库 则 没有 ; 

(5) 传 统 关 系 型 数据 库 只 能 扩展 最 多 20 个 服务 器 ,而 Hive 可 以 扩展 到 上 百 个 服 
务 器 。 

从 逻辑 上 来 看 ，Hive 包含 三 大 部 分 ， 分 别 是 Hive Clients(Hive 客户 端 ) 、Hive Serv- 
ices( Hive 服务 器 ) 和 Hive Storage and Computing (Hive 存储 和 计算 )。Hive 架构 如 
图 5.1 所 示 。 


Hive Storage and 
Hive Clients (Hive 客 户 端 ) Hive Services (Hive 服 务 器 ) (Hiv 和 并 算 ) 
Meta Store 
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图 5.1 Hive 架构 


用 户 操作 Hive 的 接口 主要 有 三 个 ， CLI(Command-Line Interface, 命令 行 界面 )、 客 
户 端 (Client) 和 WUI(Web User Interface，Web 用 户 界面 )。CLI 是 在 图 形 用 户 界面 得 到 
普及 之 前 使 用 最 为 广泛 的 用 户 界面 ， 它 通常 不 支持 鼠标 设备 ， 用 户 通过 键盘 输入 指令 
计算 机 接收 到 指令 后 予以 执行 ， 也 有 人 称 之 为 字符 用 户 界 面 。CLI 启 动 时 ,会 同时 启动 一 
个 Hive 副本 。Client 是 Hive 的 客户 端 ， 用 户 连 接 至 Hive Server。 在 启动 Client 模式 时 ， 
需要 指出 Hive Server 所 在 节点 。 并且 在 该 节点 启动 Hive Server。Client 可 以 分 为 三 种 ， 
Thrift Client、JDBC Client、ODBC Client。WUI 是 指 网 页 风格 用 户 界面 ， 日 常 所 见 到 的 
电子 商务 网 站 、 新 闻 网 站 、 社 区 网 站 和 企业 、 个 人 网 站 等 都 属于 WUI，WUI 通过 浏览 器 
访问 Hive。 

MetaStore 代表 元 数据 存储 ， 其 中 元 数据 包括 : 表 名 、 表 所 属 的 数据 库 ( 默 认 设置 是 
Default)、 表 的 拥有 者 、 列 、 分 区 字段 、 表 的 类 型 (是 否 是 外 部 表 )、 表 的 数据 所 在 目录 
等 ,默认 存储 在 自 带 的 Derby 数据 库 中 。 

Driver 包含 : 解析 器 、 编 译 器 、 优 化 器 、 执 行 器 ， 下 面 分 别 介绍 。 






































(1) 解 析 器 : 将 SQL 字符 串 转 换 成 抽象 语法 树 (Abstract Syntax Tree，AST)， 一 般 
使 用 第 三 方 工具 库 完成 ， 如 Antlr; 对 AST 进行 语法 分 析 ， 如 表 是 否 存在 、 字 段 是 否 存 
在 、SQL 语义 是 否 有 误 。 

(2) 编 译 器 : 将 AST 编译 生成 逻辑 执行 计划 。 

(3) 优 化 器 : 对 逻辑 执行 计划 进行 优化 。 

(4) 执 行 器 : 把 多 辑 执行 计划 转换 成 可 以 运行 的 物理 计划 。 对 于 Hive 来 说 ， 即 Ma- 
pReduce/TEZ/Spark 。 

解释 器 、 编 译 器 、 优 化 器 完成 HQL 查询 语句 词法 分 析 、 语 法 分 析 、 编 译 、 优 化 以 及 
查询 计划 的 生成 。 生 成 的 查询 计划 存储 在 HDFS 中 ， 并 在 随后 由 MapReduce 调用 执行 。 
图 5. 1 中 的 Driver 会 处 理 从 应 用 到 Meta Store 再 到 File System 的 所 有 请 求 ， 以 便 进行 后 
续 操作 。 
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图 5.2 描述 了 Hive 和 Hadoop 之 间 的 工作 流程 ，Hive 的 工作 原理 由 此 可 见 。 
Hive Hadoop 


- Job Tracker 
Execution (作业 追踪 器 ) 


Engine 


(执行 引擎 ) 








泗 口 吕 >DmzoDZ- 


型 


图 5.2 Hive 和 Hadoop 之 间 的 工作 流程 


Hive 和 Hadoop 之 间 的 工作 流程 可 以 分 为 以 下 十 个 步骤 。 

(1) 执 行 查询 操作 (Execute Query) 。 

命令 行 或 Web UI 之 类 的 Hive 接口 将 查询 发 送 给 Driver( 驱 动 程序 )， 如 JDBC(Java 
DataBase Connectivity，Java 数据 库 连接 )、ODBC(Open DataBase Connectivity， 开 放 式 
数据 库 连 接 ) 等 ， 再 通过 它们 执行 。 

(2) 获 取 计 划 任 务 (Get Plan) 。 

在 驱动 程序 帮助 下 查询 编译 器 ， 分 析 查 询 检查 语法 和 查询 计划 或 查询 要 求 。 

(3) 获 取 元 数据 信息 (Get Metadata) 。 

编译 器 将 元 数据 请 求 发 送 到 元 存储 (Metastore) 。 

(4) 发 送 元 数据 (Send Metadata) 。 

元 存储 发 送 元 数据 ， 作 为 对 编译 器 的 响应 。 














(5) 发 送 计划 任务 (Send Plan) 。 

编译 器 检查 需求 并 将 计划 重新 发 送 给 驱动 程序 。 到 目前 为 止 ,查询 的 解析 和 编译 已 
经 完成 。 

(6) 执 行 计划 任务 (Execute Plan) 。 

驱动 程序 将 执行 计划 发 送 到 执行 引擎 。 

(7) 执 行 作 业 任 务 (Execute Job) 。 

在 内 部 ， 执 行 作业 任务 的 是 MapReduce Job。 执 行 引 擎 将 作业 发 送 到 ResourceMa- 
nager，ResourceManager 位 于 Name 节点 中 ,并 将 作业 分 配给 DataNode 中 的 NodeMana- 
ger。 在 这 里 ， 查 询 执行 MapReduce 任务 。 

元 数据 操作 (Metadata Ops) 在 执行 的 同时 ,执行 引擎 可 以 使 用 元 存储 执行 元 数据 
操作 。 

(8) 拉 取 结 果 集 (Fetch Result) 。 

执行 引擎 将 从 DataNode 上 获取 结果 集 。 

(9) 发 送 结 果 集 (Send Results(a)) 给 驱动 程序 。 

执行 引擎 将 结果 集 发 送 给 驱动 程序 。 

(10) 发 送 结 果 集 (Send Results(b) ) 给 接口 。 

驱动 程序 将 结果 发 送 至 接口 ， 即 驱动 程序 将 结果 发 送 给 Hive 接口 。 


eta 


Hive 的 数据 组 织 形式 多 种 多 样 ， 包 含 库 、 表 和 视图 等 ， 其 中 表 又 包含 回 回 

内 部 表 、 外 部 表 、 分 区 表 和 分 桶 表 。 数 据 库 、 表 、 分 区 等 均 对 应 HDFS 上 让 

的 一 个 目录 ， 表 数据 对 应 HDFS 对 应 目录 下 的 文件 。Hive 中 所 有 的 数据 都 当当 诬 

存储 在 HDFS 中 ， 没 有 专门 的 数据 存储 格式 ”因为 Hive 是 读 模式 (Schema- [| ji ] 

OnRead)， 可 支持 TEXTFILE、SEQUENCEFILE、RCFILE 或 者 自 定义 格 

式 等 。 只 需要 在 创建 表 时 定义 Hive 数据 中 的 列 分 隔 符 和 行 分 隔 符 ，Hive 就 可 以 解析 数据 。 
Hive 的 默认 列 分 隔 符 : 控制 符 Ctrl 十 A，\ x01。Hive 的 默认 行 分 隔 符 : 换行 符 \ n。 
Hive 中 包含 的 数据 模型 见 表 5 -1。 


表 5-1 Hive 中 包含 的 数据 模型 























数据 模型 说 明 
DataBase 在 HDFS 中 表现 为 ${ Hive. metastore. warehouse. dir) 目录 下 的 一 个 文件 夹 
Table 在 HDFS 中 表现 为 DataBase 目录 下 的 一 个 文件 夹 
External Table 与 Table 类 似 , 但 其 数据 存放 位 置 可 指定 任意 HDFS 目录 路 径 
Partition 在 HDFS 中 表现 为 Table 目录 下 的 子 目 录 
Bdlet 在 HDFS 中 表现 为 同一 个 表 目 录 或 者 分 区 目录 下 根据 某 个 字段 的 值 进行 
Hash 散 列 之 后 的 多 个 文件 

View 与 传统 数据 库 类 似 ， 只 读 ， 基 于 基本 表 创 建 








Hive 的 元 数据 存储 在 RDBMS 中 ， 除 元 数据 外 的 其 他 所 有 数据 都 基于 HDFS 存储 。 
默认 情况 下 ，Hive 元 数据 保存 在 内 嵌 的 Derby 数据 库 中 ， 只 能 允许 一 个 会 话 连接 ， 只 适 









合 简单 的 测试 ， 在 实际 生产 环境 中 并 不 适用 。 为 了 支持 多 用 户 会 话 ， 则 需要 一 个 独立 的 
元 数据 库 。Hive 使 用 MySQL 作为 元 数据 库 ， 其 内 部 对 MySQL 提供 了 很 好 的 支持 。 
Hive 中 的 表 分 为 内 部 表 、 外 部 表 、 分 区 表 和 分 桶 表 。 内 部 表 和 外 部 表 的 区 别 : 删除 
内 部 表 ， 等 同 于 删除 表 元 数据 和 数据 ;删除 外 部 表 ， 只 删除 表 元 数据 ， 不 删除 数据 。 大 
多 数 情况 下 ， 内 部 表 和 外 部 表 的 使 用 选择 区 别 不 明显 ， 如 果 数 据 的 所 有 处 理 都 在 Hive 中 
进行 ,那么 倾向 于 选择 内 部 表 ; 但 是 如 果 Hive 和 其 他 工具 要 针对 相同 的 数据 集 进行 处 
理 ， 则 外 部 表 更 合适 。 使 用 外 部 表 的 场景 是 针对 一 个 数据 集 有 多 个 不 同 的 Schema， 使 用 
外 部 表 访 问 存储 在 HDFS 上 的 初始 数据 ， 然 后 通过 Hive 转换 数据 并 存 到 内 部 表 中 。 通 过 
外 部 表 和 内 部 表 的 区 别 和 使 用 选择 的 对 比 可 以 看 出 ，Hive 仅仅 只 对 存储 在 HDFS 上 的 数 
据 提供 了 一 种 新 的 抽象 ， 而 不 是 管理 存储 在 HDFS 上 的 数据 ， 因 此 不 管 创 建 内 部 表 还 是 
外 部 表 ， 都 可 以 对 Hive 表 的 数据 存储 目录 中 的 数据 进行 增删 操作 。 
分 区 表 和 分 桶 表 的 区 别 : Hive 数据 表 可 以 根据 某 些 字段 进行 分 区 操作 ， 细 化 数据 管 
理 ， 可 以 令 部 分 查询 更 快 。 同 时 表 和 分 区 也 可 以 进一步 被 划分 为 桶 ， 分 桶 表 的 原理 和 
MapReduce 编程 中 散 列 分 隔 符 的 原理 类 似 。 分 区 表 和 分 桶 表 都 是 细 化 数据 管理 ， 但 分 区 
表 是 手动 添加 区 分 ， 由 于 Hive 是 读 模 式 ， 因 此 对 添加 进 分 区 的 数据 不 做 模式 校 验 ， 分 桶 
表 中 的 数据 是 按照 某 些 分 桶 字段 进行 散 列 形成 的 多 个 文件 ， 所 以 数据 的 准确 性 会 高 很 多 。 


5.2 Hive 数据 模型 


Hive 的 数据 类 型 包含 基本 数据 类 型 和 复杂 数据 类 型 ,基本 数据 类 型 又 称 原始 数据 类 型 ， 
是 常见 的 、 较 简单 的 数据 类 型 ， 复 杂 数据 类 型 则 通常 是 由 一 些 基 础 数据 类 型 所 组 成 的 。 

1. Hive 的 大 过 数据 类 型 

Hive 的 基本 数据 类 型 包括 以 下 几 种 。 

(1) 整 型 。 

TINYINT: 微 整 型 ， 只 占用 一 个 字 节 ， 只 能 存储 0 一 255 的 整数 。 

SMALLINT: 小 整 型 ， 占 用 两 个 字 节 ， 存 储 范围 一 32768 一 32767。 

INT: 整 型 ， 占 用 四 个 字 节 ， 存 储 范 围 一 2147483648 一 2147483647 。 

BIGINT: 长 整 型 ， 占 用 八 个 字 节 ， 存 储 范围 一 263 一 2-63 一 1。 

(2) 布 尔 型 。 

BOOLEAN: TRUE/FALSE。 

(3) 浮 点 型 。 

FLOAT: 单 精 度 浮 点 数 。 

DOUBLE: 双 精 度 浮 点 数 。 

(4) 字 符 串 型 。 

STRING: 不 设 定 长 度 。 

2. Hive 的 复杂 数据 类 型 

Hive 的 复杂 数据 类 型 包括 以 下 几 种 。 






































(1)ARRAY: ARRAY 类 型 由 一 系列 相同 数据 类 型 的 元 素 组 成 ， 这 些 元 素 可 以 通过 下 标 来 
访问 。 例 如 ， 有 一 个 ARRAY 类 型 的 变量 fruits， 它 由 局 apple ，orange' ，mango' ] 组 成 ， 则 
可 以 通过 fruitsL1] 来 访问 元 素 orange， 因 为 ARRAY 类 型 的 下 标 是 从 0 开始 的 。 

(2)MAP: MAP 包含 Key>Value 键 值 对 ， 可 以 通过 Key 来 访问 元 素 。 例 如 “userlist” 是 
一 个 MAP 类 型 ， 其 中 Username 是 Key，Password 是 Value， 则 可 以 通过 userlist [' username' ] 
来 得 到 这 个 用 户 对 应 的 Password。 

(3)STRUCT: STRUCT 可 以 包含 不 同 数据 类 型 的 元 素 。 这 些 元 素 可 以 通过 “点 语 
法 ”的 方式 来 得 到 所 需要 的 元 素 ， 例 如 user 是 一 个 STRUCT 类 型 ， 那么 可 以 通过 us- 
er. address 得 到 这 个 用 户 的 地 址 。 

(4)UNION: UNIONTYPE， 是 从 Hive 0.7.0 开始 支持 的 。 

复杂 数据 类 型 的 声明 必须 使 用 尖 括 号 指明 其 中 数据 字段 的 类 型 。 定 义 三 列 ， 每 列 对 

一 种 复杂 的 数据 类 型 ， 如 下 所 示 。 

CREATE TABLE complex( \ 和 

Coll ARRAY< INT> ， 

Col2 MAP< STRING, INT>,，, 

Col3 STRUCT< a: STRING, b: INT, c: oo J 

) AN 
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Hive 文件 存储 格式 包括 以 下 五 类 

(1)TEXTFILE: 默认 格式 ， 数 据 不 做 压缩 ， 磁 盘 开 销 大 ， 数 据 解析 开销 大 。 可 结合 
Gzip 、Bzip2( 系 统 自 动 检查 ， 执 行 查询 时 自动 解压 ) 使 用 ”但 使 用 这 种 方式 Hive 不 会 对 数 
据 进行 切 分 ， 从 而 无 法 对 数据 进行 并 行 操 作 。 

(2)SEQUENCEFILE; 二 进 制 序列 文件 。SEQUENCEFILE 是 Hadoop API 提供 的 一 种 
二 进 制 文件 支持 ， 其 具有 使 用 方便 、 可 分 割 和 可 压缩 的 特点 。SEQUENCEFILE 支持 三 种 压 
缩 选择 : NONE、RECORD、BLOCK。RECORD 压缩 率 低 ， 一 般 使 用 BLOCK 压缩 。 

(3)RCFILE;” RCFILE 是 一 种 行列 存储 相 结合 的 存储 方式 。 首 先 ， 它 将 数据 按 行 分 
块 ， 保 证 同一 个 记录 在 一 个 块 上 ， 避 免 读 一 个 记录 需要 读 取 多 个 块 。 其 次 ， 块 数据 列 式 
存储 有 利于 数据 压缩 和 快速 的 列 存 取 。Hive0.6 以 后 的 版 本 开始 支持 。 相 比 TEXTFILE 
和 SEQUENCEFILE，RCFILE 由 于 是 列 式 存储 方式 ， 数 据 加 载 时 性 能 消耗 较 大 ， 但 是 有 具 
有 较 好 的 压缩 比 和 查询 响应 。 数 据 仓库 的 特点 是 一 次 写 信 、 多 次 读 取 。 因 此 ， 整 体 来 看 ， 
RCFILE 相 比 其 余 两 种 格式 具有 较 明 显 的 优势 。 

(4)ORCFILE: 列 式 存储 格式 文件 ， 比 RCFILE 有 更 高 的 压缩 比 和 读 写 效率 ， 
Hive0. 11 以 后 的 版 本 开始 支持 。 

(5)PARQUET: 列 式 存储 格式 文件 ，Hive0. 13 以 后 的 版 本 开始 支持 。 

需要 注意 的 是 ， 上 述 提 到 的 文件 存储 格式 中 TEXTFILE 为 默认 格式 ， 建 表 时 不 指定 则 默 
认为 该 格式 ， 导入 数据 时 会 直接 把 数据 文件 复制 到 HDFS 上 不 进行 处 理 。SEQUENCEFILE、 
RCFILE、ORCFILE 格式 的 表 不 能 直接 从 本 地 文件 导入 数据 ， 数 据 要 先导 入 到 TEXTFILE 格式 
的 表 中 ,然后 再 从 表 中 用 搬入 命令 导入 SEQUENCEFILE、RCFILE、ORCFILE 表 中 。 














Hive 分 区 的 概念 与 传统 关系 型 数据 库 分 区 不 同 。 传 统 数 据 库 的 分 区 方式 ， 就 Oracle 
而 言 ,分 区 独立 存在 于 字段 里 ， 存 储 真实 的 数据 ， 在 数据 进行 插入 时 自动 分 配 分 区 。 
Hive 的 分 区 方式 : 由 于 Hive 实际 是 存储 在 HDFS 上 的 抽象 ，Hive 的 一 个 分 区 名 对 应 一 
个 目录 名 ， 子 分 区 名 就 是 子 目 录 名 ， 并 不 是 一 个 实际 字段 。 

Hive 分 区 是 在 创建 表 时 用 Partitioned by 关键 字 定义 的 ，Partitioned by 子 句 中 定义 
的 列 是 表 中 正式 的 列 ， 因 为 它们 是 目录 名 ,所 以 Hive 下 的 数据 文件 中 并 不 包含 这 些 列 。 

Hive 中 支持 两 种 类 型 的 分 区 : 静态 分 区 (Static Partition，SP) 和 动态 分 区 (Dynamic 
Partition，DP)。 静 态 分 区 与 动态 分 区 的 主要 区 别 在 于 静态 分 区 是 手动 指定 ， 而 动态 分 区 
是 通过 数据 来 进行 判断 。 详 细 来 说 ， 静 态 分 区 的 列 是 在 编译 时 期 通过 用 户 传递 来 决定 的 ， 
动态 分 区 只 有 在 SQL 执行 时 才能 决定 。 

Hive 中 使 用 动态 分 区 的 步骤 如 下 。 

(1) 创 建 一 张 分 区 表 ， 包 含 两 个 分 区 dt 和 ht， 分 别 表 示 日 期 和 小 时 。 















































CREATE TABLE partition table001 “<< 和 
( WAN 厂 
name STRING, 和 XX» 
ip STRING CA 
) VAN\ 厂 
PARTITIONED BY (dt STRING, ht STRING) J 
ROW FORMAT DELIMITED FIELDS TERMINATED BY "\ CN o> 


K 


(2) 启 用 Hive 动态 分 区 ， 只 需 在 Hive 会 话 中 设置 两 个 参数 。 


set Hive. exec: dynamic. partition= trues; 人 
Set Hive. exec. dyhamic. partition. mode= Oe 
回忆 可 回 动态 分 区 不 允许 主 分 区 采用 动态 列 而 副 分 区 采用 静态 列 ， 因 为 这 样 将 
导致 所 有 的 主 分 区 都 要 创建 副 分 区 静态 列 所 定义 的 分 区 。Hive. exec，dy- 
namic. partition. mode 的 默认 值 是 strick， 即 不 允许 分 区 列 全 部 是 动态 的 ， 
【DMIL] ”这 是 为 了 防止 用 户 有 可 能 原意 是 只 在 子 分 区 内 进行 动态 建 分 区 ,但 是 由 于 
朴 忽 忘记 为 主 分 区 列 指定 值 ， 导 致 一 个 dml 语句 在 短 时 间 内 创建 大 量 新 的 分 区 ， 对 应 大 
量 新 的 文件 夹 ， 给 系统 性 能 带 来 影响 。 
(3) 把 partition_table001 表 某 个 日 期 分 区 下 的 数据 加 载 到 目标 表 partition_table002。 
使 用 静态 分 区 时 ， 必 须 指定 分 区 的 值 ， 如: 























create table if not exists partition table002 like partition table001; 

insert overwrite table partition table002 partition (dt= '20190120', ht= '00') se- 
lect name, ip from partition table001 where dt= '20190120' and ht= '00'; 

如 果 和 希望 使 用 静态 分 区 插入 每 天 24 小 时 的 数据 ， 则 需要 执行 24 次 上 面 的 语句 。 而 动 
态 分 区 会 根据 查询 出 的 结果 自动 判断 数据 该 加 载 到 哪个 分 区 中 去 。 














(4) 使 用 动态 分 





[Ea 


insert overwrite table partition table002 partition (dt, ht) select * from parti- 
tion_table001 where dt= '20190120'; 


Hive 先 获取 select 的 最 后 两 个 位 置 的 dt 和 ht 参数 值 ， 然 后 将 这 两 个 值 填写 到 insert 
语句 Partition 中 的 dt 和 ht 这 两 个 变量 中 ， 即 动态 分 区 是 通过 位 置 来 对 应 分 区 值 的。 原始 
表 select 出 来 的 值 和 输出 Partition 的 值 的 关系 仅仅 是 通过 位 置 来 确定 的 ， 和 名 字 无 关 ， 
例如 ， 这 里 dt 和 st 的 名 称 完 全 没有 关系 ， 只 需要 一 句 SQL 即 可 把 20190120 下 的 24 个 
ht 分 区 插 到 新 表 中 。 


| Hive 索引 


索引 是 Hive0.7 之 后 的 版 本 才 有 的 功能 ， 创 建 索引 需要 评 佑 其 合理 回 
性 ， 因 为 创建 索引 需要 一 定 的 磁盘 空间 ， 维 护 起 来 需要 代价 。 Hive 支持 看 
索引 ， 但 是 Hive 的 索引 与 关系 型 数据 库 中 的 索引 并 不 相同 ,例如 ，Hive 半 
不 支持 主键 或 外 键 。Hive 索引 可 以 建立 在 表 中 的 某 些 列 十 ， 以 提升 一 些 【Mysl 的 也 入 
操作 的 效率 ， 例 如 ， 减 少 MapReduce 任务 中 需要 读 取 的 数据 块 的 数量 。 3] ga] 
在 可 以 预见 到 分 区 数据 非常 庞大 的 情况 下 ,索引 常常 是 优 于 分 区 的 。 

Hive 是 一 种 批 处 理工 具 ， 通 常用 在 多 任务 节点 的 场景 下 ,快速 扫描 大 规模 数据 。 
关系 型 数据 库 则 适用 于 典型 的 单机 运行 、1/O 密集 型 的 场景 。Hive 通过 并 行 化 来 实 
现 性 能 ， 因 此 Hive 更 适用 于 全 表 扫 描 这 样 的 操作 ,而 不 是 像 使 用 关系 型 数据 库 一 样 
操作 。 

Hive 的 索引 目的 是 提高 Hive 表 指 定 列 的 查询 速度 。 没 有 索引 时 ， 类似 WHERE 
tabl. coll 二 10 的 查询 ，Hive 会 加 载 整 张 表 或 分 区 ， 然 后 处 理 所 有 的 列 ， 但 是 如 果 字 段 
coll 上 存在 索引 ， 那 么 只 会 加 载 和 处 理 文件 的 一 部 分 。 与 其 他 传统 数据 库 一 样 ， 增 加 索 
引 在 提升 查询 速度 时 ， 会 消耗 额外 资源 去 创建 索引 ， 并 且 需 要 更 多 的 磁盘 空间 存储 索引 。 
在 指定 列 上 建立 索引 ,会 产生 一 张 索引 表 (Hive 的 一 张 物理 表 )， 里 面 的 字段 包括 : 索引 
列 的 值 、 该 值 对 应 的 HDFS 文件 路 径 和 该 值 在 文件 中 的 偏 移 量 。 在 执行 索引 字段 查询 时 ， 
首先 额外 生成 一 个 MRJob， 根 据 对 索引 列 的 过 滤 条 件 ， 从 索引 表 中 过 滤 出 索引 列 的 值 所 
对 应 的 HDFS 文件 路 径 及 偏 移 量 ， 输 出 到 HDFS 上 的 一 个 文件 中 ,然后 根据 这 些 文件 中 
的 HDFS 路 径 和 偏 移 量 筛选 原始 input 文件 ， 生 成 新 的 split 作为 整个 作业 的 split， 这 样 
就 达到 避免 全 表 扫描 的 目的 。 

下 面 介绍 Hive 索引 建立 过 程 。 

(1) 创 建 索引 ， 原 始 表 见 表 5 -2(a) 。 















下 


create index lxwl1234 index on table 1xw1234(Key) 
as 'org. apache. hadoop. Hive. ql. index. compact. CompactIndexHandler' 
with deferred rebuild; 


完成 创建 之 后 ,在 Hive 中 会 形成 一 张 索引 表 ， 该 表 也 是 物理 表 ， 见 表 5-2(b)。 








表 5-2(a) 原始 表 
Table Ixw1234 























Key String 
Value String 
表 5-2(b) 索引 表 
Index table default Ixw1234 Ixwl1234 index 
Key String 
_bucketname String 
_offsets Array=bigint> 





索引 表 中 Key 字段 就 是 原 表 中 Key 字段 的 值 。_bucketname 字段 ， 代 表 数 据 文件 对 
应 的 HDFS 文件 路 径 。_offsets 代表 该 Key 字段 的 值 在 文件 中 的 偏 移 量 ， 可 能 存在 多 个 偏 
移 量 ， 因 此 ， 该 字段 类 型 为 数组 。 其 实 ， 索 引 表 就 相当 于 一 个 在 原 表 索引 列 上 的 汇总 表 。 

(2) 生 成 索引 数据 。 





alter index 1xw1234_index on 1xw1234 rebuild; \, 

用 一 个 MR 任务 ， 以 Table lxw1234 的 数据 作为 input， 将 索引 字段 Key 中 的 每 一 
值 及 其 对 应 的 HDFS 文件 和 偏 移 量 输出 到 索引 表 中 。 

03) 自动 使 用 索引 。 

SET Hive. input. format- dig. ee hadoop. a Ia HiveInputFormat; 


SET Hive. optimize. indexX. filter= true; Ww 上 
SET Hive. optimize. ifidex: filter. compact. neize- 0; 
= RAR 


下 面 将 举例 说 明 查 询 时 索引 如 何 起 效 ; 
NAN 
select * frém lxw1234 where Key = '13400000144 1387531071 460606566970889'; 


首先 用 一 个 作业 从 索引 表 中 过 滤 出 Key 二 “13400000144_1387531071_460606566970889” 的 
记录 ,将 其 对 应 的 HDFS 文件 路 径 及 偏 移 量 输出 到 HDFS 临时 文件 中 。 然 后 根据 这 个 文 
件 路 径 及 偏 移 量 ， 生 成 新 的 split， 作 为 查询 作业 的 Map 任务 的 input。 不 使 用 索引 时 的 工 
作 原 理 图 如 图 5. 3 所 示 。 


table ]xw1234 query job 


图 5.3 不 使 用 索引 时 的 工作 原理 图 














Table lxw1234 的 每 一 个 split 都 会 用 一 个 Map Task 去 扫描 ,但 其 实 只 有 split2 中 有 真正 的 


结果 数据 ，map taskl 和 map task3 造成 了 资源 浪费 。 使 用 索引 时 的 工作 原理 图 如 图 5. 4 所 示 。 


os [ome | 


Key a 
_bucketname Key 一 xx 
_offsets hdfs://xxx/file 


[273] 


县 
query job 





table Ixw1234 






图 5.4 使 用 索引 时 的 工作 原理 图 


查询 提交 后 ， 先 用 一 个 MR 扫描 索引 表 , 从 索引 表 中 找 出 Key=“xx” 的 记录 ,获取 
到 HDFS 文件 名 和 偏 移 量 ， 然 后 直接 定位 到 该 文件 中 的 偏 移 量 ， 用 一 个 map task 即 可 完 
成 查询 ， 其 最 终 目的 就 是 为 了 减少 查询 时 的 输入 规模 。 

从 以 上 过 程 可 以 看 出 ，Hive 索引 的 使 用 过 程 比较 烦琐 。 每 次 查询 时 都 要 先 用 一 个 作 
业 扫描 索引 表 ， 如 果 索 引 列 的 值 非常 稀疏 ,那么 索引 表 本 身 也 会 非常 大 ， 索引 表 不 会 自 
动 重建 ， 如 果 表 有 数据 新 增 或 删除 ,那么 必须 手动 重建 索引 表 数 据 。 


53 Hive 查 询 语言 HiveQL 


Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 ， 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数 
据 库 表 ， 并 提供 完整 的 SQL 查询 功能 ， 可 以 将 SQL 语句 转换 为 MapReduce 任务 进行 运 
行 。 其 优点 是 学 习 成 本 低 ， 可 以 通过 类 SQL 语句 快速 实现 简单 的 MapReduce 统计 ， 不必 
开发 专门 的 MapReduce 应 用 ， 十 分 适合 数据 仓库 的 统计 分 析 。 


Hive 创建 表 定 义 有 以 下 三 种 方式 。 
(1) 方 式 一 : 使 用 语句 CREATE...... AS. .... .SELECT 创建 。 
例如 : 


CREATE TABLE default. weblog comm AS select ip, time, req url from default. weblog; 


(2) 方 式 二 : 通过 like 进行 Hive 复制 表 结 构 ， 使 用 语句 CREATE TABLE new_table 
LIKE old_table; 创建 。 
例如 : 





常 ， 





CREATE TABLE IF NOT EXISTS default. weblog test LIKE default. weblog 


(3) 方 式 三 : 使 用 规范 的 建 表 语法 创建 。 
例如 : 


CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table name 
[(col name data type [COMMENT col comment], *…)] 
[COMMENT table comment] 
[PARTITIONED BY (col name data type [COMMENT col comment], **)] 
[CLUSTERED BY (col name, col name, **) 
[SORTED BY (col_name [ASC| DESC], **)] INTO num buckets BUCKETS] 
[ROW FORMAT row format] 
[STORED AS file format] 
[LOCATION hdfs path] 


针对 以 上 几 种 方式 ， 现 进行 如 下 几 点 说 明 。 

(1)CREATE TABLE 创建 一 个 指定 名 字 的 表 。 如 果 相同 名 字 的 表 已 存在 ， 则 抛 出 异 
用 户 可 以 用 IF NOT EXISTS 选项 来 忽略 该 异常 。 

(2)EXTERNAL 关键 字 允 许 用 户 创建 一 个 外 部 表 , 在 建 表 同时 指定 一 个 指向 实际 数 


据 的 路 径 (LOCATION)。 


Hive 创建 内 部 表 时 ,会 将 数据 移动 到 数据 仓库 指向 的 路 径 。 若 创建 外 部 表 ， 仅 记录 


数据 所 在 的 路 径 ， 不 对 数据 的 位 置 做 任何 改变 。 在 删除 表 时 ， 内 部 表 的 元 数据 和 数据 会 
被 一 起 删除 ， 而 外 部 表 只 删除 元 数据 ,不 删除 数据 。 


(3)LIKE 允许 用 户 复制 现 有 的 表 结构 ,但 是 不 复制 数据 : 
Hive 复制 表 结构 使 用 如 下 语句 。 
CREATE TABLE ne table LIKE old table; ~ 六 

本 R= \ 


例如 : 创建 一 个 和 stg_job 表 具 有 一 样 表 结 构 的 s_job 表 


入 
Create table s_job like stg job; 


(4)ROW FORMAT。 


DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINRTED BY char] 
[MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] 
| SERDE serde name [WITH SERDEPROPERTIES (property name= property Value, prop- 


erty name= property Value, *…)] 





用 户 在 建 表 时 可 以 自 定义 SerDe 或 者 使 用 自 带 的 SerDe，SerDe 是 Serial- 
ize/ Deserilize 的 简称 ， 目 的 是 用 于 序列 化 和 反 序列 化 。 如 果 没 有 指定 ROW 
FORMAT 或 者 ROW FORMAT DELIMITED. 将 会 使 用 自 带 的 SerDe。 在 建 
LHive 表 时 ,用 户 还 需要 为 表 指 定 列 ， 用户 在 指定 列 的 同时 也 会 指定 自 定义 的 
SerDe 概述 】 SerDe，Hive 通过 SerDe 确定 表 的 具体 列 的 数据 。 
(5)STORED AS。 





SEQUENCEFILE| TEXTFILE| RCFILE 








如 果 文 件数 据 是 纯 文本 ,可 以 使 用 STORED AS TEXTFILE。 如 果 数 据 需 要 压缩 ， 
则 使 用 STORED AS SEQUENCEFILE。 

(6)CLUSTERED BY 。 

对 于 每 一 个 表 或 分 区 ，Hive 可 以 进一步 组 织 成 桶 (Bucket)， 桶 是 更 为 细 粒 度 的 数据 
范围 划分 。Hive 也 是 针对 某 一 列 进行 桶 的 组 织 ， 采 用 对 列 值 散 列 然后 除 以 桶 的 个 数 求 余 
的 方式 决定 该 条 记录 存放 在 哪个 桶 中 。 

把 表 或 分 区 组 织 成 桶 有 以 下 两 个 理由 。 

@ 获得 更 高 的 查询 处 理 效率 。 桶 为 表 加 上 了 额外 的 结构 ，Hive 在 处 理 某 些 查询 时 能 
利用 这 个 结构 。 具 体 而 言 ， 连 接 两 个 在 (包含 连接 列 的 ) 相 同 列 上 划分 了 桶 的 表 ， 可 以 使 
用 Map 端 连 接 (Map-Side Join) 高 效 实现 。 例 如 JOIN 操作 ， 两 个 表 有 一 个 相同 的 列 ， 如 
果 对 这 两 个 表 都 进行 了 桶 操作 ， 那 么 将 保存 相同 列 值 的 桶 进行 JOIN 操作 即 可 ， 可 以 减少 
JOIN 的 数据 量 。 

@ 使 取样 (Sampling) 更 高 效 。 在 处 理 大 规模 数据 集 时 ,在 开发 和 修改 查询 阶段 ， 如 
果 能 在 数据 集 的 一 小 部 分 数据 上 试 运行 查询 ， 会 带 来 很 多 方便 。 


数据 的 导入 和 导出 NA 


在 创建 数据 表 的 过 程 中 ，Hive 表 创 建 完成 后 ,需要 将 一 些 数据 导入 到 Hive 表 中 ,或 
是 将 Hive 表 中 的 数据 导出 。 下 面 介绍 常见 的 导入 导 出 方式 。 

1. 导入 方式 

(1) 本 地 文件 导入 到 Hive 表 ; 

(2) Hive 表 导 人 到 Hive 表 ; 

(3)HDFS 文件 导入 到 Hive 表 ; 

(4) 创 建 表 的 过 程 中 从 其 他 表 导 入 ; 

(5) 通 过 “sqoop 将 MySQL 库 导入 到 Hive 表 ; 示例 见 《 通 过 sqoop 进行 MySQL 与 
Hive 的 导 和 导出》 和 《定时 从 大 数据 平台 同步 HIVE 数据 到 Oracle》。 

2. 导出 方式 

(1) Hive 表 导 出 到 本 地 文件 系统 ; 

(2) Hive 表 导 出 到 HDFS; 

(3) 通 过 sqoop 将 Hive 表 导 出 到 MySQL 库 。 

为 方便 理解 ， 下 面 给 出 测试 示例 ， 在 测试 前 需要 做 相关 数据 准备 ， 创 建 两 张 Hive 表 
testA 和 testB。 

(1) 创 建 testA。 























CREATE TABLE testA ( 

id INT, 

name string, 

area string 

) PARTITIONED BY (create time string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ', 
' STORED RS TEXTFILE; 











(2) 创 建 testB。 





得 到 若干 数据 文件 如 下 。 
(1) 数 据 文件 (sourceA. txt) 


© fishl, SZ; 
©@ fish2, SH; 
©® fish3, HZ; oR 
@ fish4 ， QD; EC 
© fish5，SR。 Xe +- 
(2) 数 据 文件 (sourceB. txt) : NA NV 
© zy1, SZ, 1001; 
© zy2, SH, 1002; A 
@ zy3, HZ, 1003; XS 
> 
@ zy4, QD, 1004; ww 
@ ~ V” 
zy5，SR，1005。 DA 
下 面 介绍 Hive 数据 导入 的 几 种 方式 。 
(本 地 文件 导 人 到 Hive 表 。 

















(2) Hive 表 导 入 到 Hive 表 。 
将 testB 的 数据 导入 到 testA 表 。 





为 方便 理解 ， 柚 以 下 3 点 说 明 ， 
@ 将 testB 中 id=1 的 行 导入 到 testA， 分 区 为 2015-07-11; 
Q@ 将 ‘ed id==2 的 行 导入 到 testA， 分 区 create_time 为 id 一 2 行 的 code 值 ; 


@ HDFS 文件 导入 到 Hive 表 。 
将 sourceA. txt 和 sourceB.txt 传 到 HDFS 中 ,路 径 分 别 是 /home/hadoop/sour- 
ceA. txt 和 /home/hadoop/sourceB. txt。 





(3) 创 建 表 的 过 程 中 从 其 他 表 导 入 。 











下 面 介绍 Hive 数据 导出 的 几 种 方式 。 
(1) 导 出 到 本 地 文件 系统 。 


hive> INSERT OVERNRITE LOCAL DIRECTORY '/home/hadoop/output' ROW FORMAT DELIMITED 
FIELDS TERMINATED by ', ' Select * from testA; 

Total jobs= 1 

Launching Job 1 out of 1 

Number of reduce tasks is set to 0 since there's no reduce operator 

Starting Job = job_1451024007879_0001, Tracking URL = http: //hadoopcluster79; 
8088/proxy/application 1451024007879 0001/ 

Kill Command = /home/hadoop/apache/hadoop-2. 4 1/bin/hadoop job -kill job_1451024007879 
_0001 

Hadoop job information for Stage-1; number of mappers: 1; number of reducers: 0 

2015-12-25 17，04:， 30, 447 Stage-1map= 0%, reduce = 0% 

2015-12-25 17: 04; 35, 616 Stage-1 map = 100% ， reduce = 0%/, a ive CPU 1 16 sec 

MapReduce Total cumulative CPU time: 1 seconds 160 ea 

Ended Job = job_1451024007879_0001 X > 

Copying data to local directory /home/hadoop/outpu 

Copying data to local directory We 

MapReduce Jobs Launched: 


Job 0: Map: 1 Cumulative CPU: 1. AR N Read: 305 HDFS Write: 110 SUCCESS 
Total MapReduce CPU Time Spent: SN 160 msec 
OK 


Time taken: 16. 701 Se SN 





查看 数据 结果 。 

[hadoope hadoopElbster78 output]$cat A one/hadoop /output/000000. 0 
@ fishl, S27 2015-07-08; 站 

@® fish2 SS 5-07-08; 党 ” 

@ > 2015-07-08; 


@ fish4, QD, 2015-07-08; 
® fish5, SR, 2015-07-08, 


通过 INSERT OVERWRITE LOCAL DIRECTORY 将 Hive 表 中 的 testA 数据 导入 
到 /home/hadoop 目录 。 众 所 周知 ，HQL 会 启动 MapReduce 完成 ， 其实 /home/hadoop 
就 是 Mapreduce 输出 路 径 ， 产生 的 结果 存放 为 文件 名 : 000000_0。 

(2) 导 出 到 HDFS。 

导入 到 HDFS 和 导入 本 地 文件 类 似 ， 去 掉 HQL 语句 的 LOCAL 就 可 以 了 。 


hive> INSERT OVERWRITE DIRECTORY '/home/hadoop/output' select * from testR; 

Total jobs = 3 

Launching Job 1 out of 3 

Number of reduce tasks is set to 0 since there's no reduce operator 

Starting Job = job_1451024007879_0002, Tracking URL = http: //hadoopcluster79: 
8088/proxy/application 1451024007879_0002/ 








Kill Command = /home/hadoop/apache/hadoop-2 4 1/bin/hadoop job -kill job 1451024007879 0002 
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0 
2015-12-25 17: 08: 51, 034 Stage-lmap = 0%, reduce = 0% 
2015-12-25 17: 08: 59, 313 Stage-l map = 100% ， reduce = 0% , Cumulative CPU 1. 4 sec 
MapReduce Total cumulative CPU time: 1 seconds 400 msec 
Ended Job = job 1451024007879_0002 
Stage-3 is selected by condition resolver. 
Stage-2 is filtered out by condition resolver. 
Stage-4 is filtered out by condition resolver. 

Moving data to: hdfs: //hadoop2cluster/home/hadoop/hivedata/hive-hadoop/hive _ 

2015-12-25_17-08-43_733_1768532778392261937-1/-ext-10000 
Moving data to: /home/hadoop/output 
MapReduce Jobs Launched: 
Job 0: Map: 1 Cumulative CPU: 1.4 sec HDFS Read: 305 HDFS Write: 110 SUCCESS 
Total MapReduce CPU Time Spent: 1 seconds 400 msec 
OK x 
Time taken: 16. 667 seconds NA 
K 





查看 HFDS 输出 文件 。 





[hadoop@ hadoopcluster78 bin] $. 人 s 
@ fish1Sz2015-07-08; 7 

@ fish2sH2015-07-08; 
图 fish3H22015-07-08; 
@ fish40D2015-07-08; 
©® fish5SR2015-07-08。 ~ 了. ‘ 


i SN 


HiveQL 是 一 种 查询 语言 ，Hive 处 理 在 Meta Store 中 分 析 的 结构 化 数据 。SELECT 
是 SQL 的 射影 算 子 ，FROM 子 句 标 识 了 从 哪个 表 、 视 图 或 谋 套 查询 中 选择 记录 。 
下 面 给 出 的 是 SELECT 查询 的 语法 。 


8 
To 
KAN 
aN 





SELECT [ALL | DISTINCT] select expr, select expr, *** 

FROM table reference 

[WHERE where_condition] 

[GROUP BY col_list] 

[HAVING having condition] 

[CLUSTER BY col list | [DISTRIBUTE BY col list] [SORT BY col list]] 
[LIMIT number]; 


假设 Employee 表 有 如 下 ID、Name、Salary、Designation 和 Dept 等 字段 ， 
查询 检索 超过 30000 元 薪水 的 员工 详细 信息 。 














+ -+ 一 -+ 一 -+ 一 + 一 十 
| ID | Name | Salary | Designation 1 Dept 1 
+ 0 = > 2 + 


1 1201 | Gopal 1 45000 1 Technical manager | TP 1 














(1D)WHERE 子 句 中 的 工作 原理 类 似 于 一 个 条 件 ， 它 使 用 这 个 条 件 过 滤 数据 ， 并 返回 
给 出 一 个 有 限 的 结果 。 
下 面 的 查询 检索 使 用 上 述 业 务 情景 的 员工 详细 信息 。 


成 功 执行 查询 后 ， 能 看 到 以 下 回应 。 





(2)ORDER BY 子 句 用 于 检索 基于 某 一 列 的 细节 并 设置 排序 结果 按 升序 或 降序 进行 
ga rs BE 
下 面 给 出 的 是 ORDER BY 子 句 的 语法 。 





假设 员工 表 有 如 下 ID、Name、Salary、Designation 和 Dept 字段 ， 生 成 一 个 查询 用 
于 检索 员工 的 详细 信息 。 





使 用 上 述 业务 情景 查询 检索 员工 详细 信息 。 








成 功 执行 查询 后 ， 能 看 到 以 下 回应 。 





C3)GROUP BY 于 名 用 于 分 类 所 有 记录 结果 的 特定 集合 列 ， es 
GROUP BY 子 句 的 语法 如 下 。 > 


假设 员工 表 有 如 下 1D、Name、 8 ignation 和 Dept 字段 ， 生 成 一 个 查询 以 
检索 每 个 部 门 的 员工 数量 。 A 





使 用 上 述 业 务 情景 查询 检索 员工 的 详细 信息 。 


成 功 执行 查询 后 ， 能 看 到 以 下 回应 。 

















(4)JOIN 是 子 句 用 于 通过 使 用 共同 值 组 合 来 自 两 个 表 的 特定 字段 ， 它 是 用 来 从 数据 
库 中 的 两 个 或 更 多 的 表 组 合 记录 的 ， 类 似 于 SQL JOIN。 
语法 JOIN_Table。 





考虑 下 表 CUSTOMERS。 


考虑 另 一 个 表 命令 如 下 





有 不 同类 型 的 连接 给 出 如 下 。 


JOIN 子 句 用 于 合并 和 检索 来 自 多 个 表 中 的 记录 。JOIN 和 SQL OUTER JOIN 类 似 ， 
连接 条 件 是 使 用 主键 和 表 的 外 键 。 
下 面 查询 执行 JOIN 的 是 表 CUSTOMERS 和 ORDERS， 并 检索 记录 。 











成 功 执行 查询 后 ， 能 看 到 以 下 回应 。 


二 
| ID | NAME | AGE | AMOUNT | 
+ 一 十 一 一 一 -十 一 一 + 一 一 一 + 


3 | kaushik | 23 | 3000 


1 1 
1 3 | kaushik | 23 | 1500 | 
12 | Khilan | 25 | 1560 | 
1 4 | Chaitali | 25 | 2060 | 
ee 


LEFT OUTER JOIN 返回 左 表 的 所 有 行 ， 即 使 在 右边 的 表 中 没有 匹配 。 这 意味 着 ， 如果 
ON 子 句 匹配 的 右 表 0( 零 ) 记 录 ,， JOIN 还 是 返回 结果 行 , 但 在 右 表 中 的 每 一 列 为 NULL。 
LEFT JOIN 返回 左 表 中 的 所 有 值 ， 加 上 右 表 , 或 JOIN 子 句 没有 匹配 的 情况 下 返回 NULL。 

下 面 的 查询 演示 了 CUSTOMERS 和 ORDERS 表 之 间 的 LEFT OUTER JOIN 的 


用 法 。 
ed 
Hive> SELECT c, ID, c. NAME, o. RMOUNT，o. DATE 了 入 
> FROM CUSTOMERS c SS- 
> LEFT OUTER JOIN ORDERS o 有 X SNN 
> ON (c. ID = o. CUSTOMER ID); RY 
<A NN 
成 功 执行 查询 后 ， 能 看 到 以 下 回应 。 
+ -一 + 一 一 一 -+ 一 一 一 -+ A. BAR yy > 
1 ID | NAME | .RMOUNT 1 DATE XL 
+ 一 + 一 一 一 -+ 一 一 站 一 -一 一 一 一 一 一 + r 4 
1 1 | Ramesh Ail NULL | NULL SS r 1 
1 2 | Khilan el 1560 | 200911-2000:50:00 | 
1 3 | kiushik | 3000 | 2009-10:08,00:00:00 | 
全 本) SA 1 1500 | 2009-10-08 00:00:00 | 
| 4 1 chaitali | 2060 | 2008-05-2000:00:00 | 
1 5 1 Hardik | NULL | NULL 1 
1 6 | Komal | NULL | NULL 1 
1 7 1 Muffy | NULL | NULL 1 
nD 


RIGHT OUTER JOIN 返回 右 表 的 所 有 行 ， 即 使 在 左边 的 表 中 没有 匹配 。 如 果 ON 
子 句 的 左 表 匹 配 0( 零 ) 的 记录 ,JOIN 结果 返回 一 行 , 但 在 左 表 中 的 每 一 列 为 NULL。 
RIGHT JOIN 返回 右 表 中 的 所 有 值 ， 加 上 左 表 ， 或 者 没有 匹配 的 情况 下 返回 NULL。 

下 面 的 查询 演示 了 在 CUSTOMERS 和 ORDERS 表 之 间 使 用 RIGHT OUTER JOIN。 

Hive> SELECT c. ID，c. NAME, o. AMOUNT, o. DATE 

> FROM CUSTOMERS c 


> RIGHT OUTER JOIN ORDERS o 
> ON (c. ID = o. CUSTOMER_ID) ; 


成 功 执行 查询 后 ， 能 看 到 以 下 回应 。 

















十 = 二 一 十 十 + 

1 ID | NAME 1 AMOUNT | DATE 1 
+ -+ 一 十 十 十 

[| 县: | kaushik | 3000 | 2009-10-08 00:00:00 | 
3 1 kaushik | 1500 | 2009-10-08 00:00:00 | 
Lz | Khilan | 1560 1 2009-11-20 00:00:00 1 

1 4 | Chaitali | 2060 | 2008-05-20 00:00:00 | 

+ 一 一 + -一 一 + 一 一 一 十 一 一 一 一 一 一 一 十 


FULL OUTER JOIN 结合 了 左边 ， 并 且 满 足 JOIN 条 件 满足 外 部 表 的 记录 。 连 接 表 


包含 两 个 表 的 所 有 记录 ， 若 两 侧 缺少 匹配 结果 ， 则 使 用 NULL 值 填补 。 


增 类 型 以 及 操作 日 期 和 时 间 的 一 些 函 数 ( 如 ADD_MONTH)， 有 非常 严格 的 类 型 
匹配 ,不 支持 类 型 自动 转换 ; 普通 的 SQL 可 以 对 结果 集 查询 (如 一 般 的 嵌 套 查 


下 面 的 查询 演示 了 CUSTOMERS 和 ORDERS 表 之 间 使 用 的 FULL OUTER JOIN 


Hive> SELECT c. TD，c. NAME，o. RMOUNT，o. DATE f 入 
> FROM CUSTOMERS c F Kk Sy 
> FULL OUTER JOIN ORDERS o AAS 
> ON (c. ID = o.CUSTOMER ID); RS 


\ 


成 功 执行 查询 后 ， 能 看 到 以 下 回应 。 





ee x yt 

| ID | NAME | AMOUNT | DRTE “FY 1 
CS 

1 1 | Ramesh | NULL 1/ ‘NOE 1 

i 2 1 Khilan | 1560 NS2009-11-20 00:00:00 51 <\ 
1 3 | kaushik 1 3000 , 1200910-08 00:00:00 1 
1 3 | kaushik | ,1500% | 2009-10-08 00:00:00] | 

1 4 | ChaitaliF 2060 | 2008-05-20.00:00200 | 

1 5 | Hardik || NULL 1 NULL NE 1 

1 6 | Komial< 一 | NULL | NULE 二 [7 1 
本 arty ”1 NUIL | NULL YS 1 

1 3 [kaushik | 3000 | 2009-10-08 00:00:00 | 

1 3 | kaushik | 1500 | 2009-10-08 00:00:00 | 

1 2 | Khilan | 1560 | 2009-11-20 00:00:00 | 

| 4 | Chaitali| 2060 | 2008-05-20 00:00:00 | 

+ -十 一 + + + 





HiveQL 与 普通 SQL 有 许多 差别 ，HiveQL 没有 真正 的 日 期 /时 间 类 型 、 自 





作 ， 对 于 字符 串 没 有 FIND 和 REPLACE 函数 。 SQL 区别】 


鸭 >》 折 展 阅读 5-1 


Hive 和 HBase 的 区 别 
Hive 是 一 个 构建 在 Hadoop 基础 设施 上 的 数据 仓库 。 通 过 Hive 可 以 使 用 HQL 语言 


查询 存放 在 HDFS 上 的 数据 。HQL 是 一 种 类 SQL 语言 ， 这 种 语言 最 终 被 转化 为 MapRe- 








duce 任务 。 虽 然 Hive 提供 了 SQL 查询 功能 ,但 是 Hive 不 能 进行 交互 查询 ， 因 为 它 只 能 
在 Hadoop 上 批量 地 执行 Hadoop。 

HBase 是 一 种 Key/ Value 系统 ， 它 运行 在 HDFS 上 。 和 Hive 不 一 样 的 是 ，HBase 能 够 在 
它 的 数据 库 上 实时 运行 ， 而 不 是 运行 MapReduce 任务 。Hive 被 分 区 为 表格 ， 表 格 又 被 进一步 
分 割 为 列 绪 。 列 徐 必 须 使 用 Schema 定义 ， 列 簇 将 某 一 类 型 列 集合 起 来 ( 列 不 要 求 Schema 定 
义 )。 例 如 ,“Message” 列 徐 可 能 包含 : “to”“from”“Date”“Subject” “Body”。 每 一 个 Key/ 
Value 对 在 HBase 中 被 定义 为 一 个 Cell, 每 一 个 Key 由 Row- Key、 列 狂 、 列 和 时 间 和 蕉 组 成 。 在 
HBase 中 ， 行 是 Key/ Value 映射 的 集合 ， 这 个 映射 通过 Row-Key 来 唯一 标识 。HBase 利用 Ha- 
doop 的 基础 设施 ， 可 以 利用 通用 的 设备 进行 水 平 扩展 。 

Hive 帮助 熟悉 SQL 的 人 运行 MapReduce 任务 ， 因 为 它 是 JDBC 兼容 的 ， 同 时 它 也 
能 够 和 现存 的 SQL 工具 整合 在 一 起 。 运 行 Hive 查询 会 花费 很 长 时 间 ， 因 为 它 会 默认 遍历 
表 中 所 有 数据 。 即 使 有 这 样 的 缺点 ,一 次 遍历 的 数据 量 也 可 以 通过 ,Hive 的 分 区 机 制 来 控 
制 。 分 区 允许 在 数据 集 上 运行 过 滤 查 询 ， 这 些 数据 集 存储 在 不 同 的 文件 夹 内 ， 查 询 时 只 
遍历 指定 文件 夹 (分 区 ) 中 的 数据 。 例如， 这 种 机 制 可 以 用 来 只 处 理 在 某 一 个 时 间 范 围 内 
的 文件 ， 只 要 这 些 文件 名 中 包括 时 间 格 式 。 

HBase 通过 存储 Key/Value 来 工作 。 它 支持 四 种 主要 的 操作 : 增加 或 者 更 新 行 ， 查 
看 一 个 范围 内 的 Cell， 获 取 指 定 的 行 ， 删 除 指定 的 行 、 列 或 者 列 的 版 本 。 版 本 信息 用 来 获 
取 历 史 数 据 (每 一 行 的 历史 数据 可 以 被 删除 ， 然 后 通过 HBase Compactions 就 可 以 释放 出 
空间 )。 虽 然 HBase 包括 表格 ， 但 是 Schema 仅仅 被 表格 和 列 答 所 要 求 ， 列 不 需要 Sche- 
ma。HBase 的 表格 包括 增加 /计数 功能 。 

Hive 目前 不 支持 更 新 操作 。 另 外 ， 由 于 Hive 在 Hadoop 上 运行 批量 操作 ， 它 需要 花 
费 很 长 时 间 ， 通 常 是 几 分 钟 到 几 个 小 时 才 可 以 获得 查询 的 结果 。Hive 必须 提供 预先 定义 
好 的 Schema 将 文件 和 目录 映射 到 列 ， 并 且 Hive 汪 ACID 不 兼容 。 

HBase 查询 是 通过 特定 语言 来 编写 的 ， 这 种 语言 需要 重新 学 习 。 类 SQL 的 功能 可 以 
通过 Apache Phonenix 实现 ， 但 这 是 以 必须 提供 Schema 为 代价 的 。 另 外 ，HBase 也 并 不 
是 兼容 所 有 的 ACID 特性 ， 虽 然 它 支持 某 些 特性 。 最 后 ,为 了 运行 HBase，ZooKeeper 是 
必须 的 ，ZooKeeper 是 一 个 用 来 进行 分 布 式 协调 的 服务 ,这些 服务 包括 配置 服务 、 维 护 元 
信息 和 命名 空间 服务 。 

Hive 适合 用 来 对 一 段 时 间 内 的 数据 进行 分 析 查 询 。 例 如 ， 用 来 计算 趋势 或 者 网 站 的 
日 志 。Hive 不 应 该 用 来 进行 实时 查询 ， 因 为 它 需 要 很 长 时 间 才 可 以 返回 结果 。 

HBase 非常 适合 用 来 进行 大 数据 的 实时 查询 。Facebook 用 HBase 进行 消息 和 实时 的 
分 析 ， 它 也 可 以 用 来 统计 Facebook 的 连接 数 。 

Hive 和 HBase 是 两 种 基于 Hadoop 的 不 同 技术 : Hive 是 一 种 类 SQL 的 引擎 ， 并 且 
运行 MapReduce 任务 ; HBase 是 一 种 在 Hadoop 上 的 NoSQL 的 Key/Value 数据 库 。 当 
然 ， 这 两 种 工具 是 可 以 同时 使 用 的 。 就 像 用 Google 来 搜索 、 用 Facebook 进行 社交 一 样 ， 
Hive 可 以 用 来 进行 统计 查询 ，HBase 可 以 用 来 进行 实时 查询 ， 数 据 也 可 以 从 Hive 写 到 
HBase， 设 置 再 从 HBase 写 回 Hive。 

https://www. cnblogs. com/justinzhang/p/4273470. html 











本 章 小 结 


Hive 依赖 于 HDFS 存储 数据 ， 它 将 HiveQL 转换 成 MapReduce 执行 。Hive 是 基于 
Hadoop 的 一 个 数据 仓库 工具 ， 实 质 上 是 一 个 基于 HDFS 的 MapReduce 计算 框架 ， 对 存 
储 在 HDFS 中 的 数据 进行 分 析 和 管理 。 本 章 对 并 行 计算 框架 Hive 的 相关 知识 进行 了 曾 
述 ， 介绍 了 Hive 的 基本 架构 、 工 作 原 理 和 数据 组 织 ， 介绍 了 Hive 的 数据 模型 、Hive 动 
态 分 区 和 上 索引， 还 对 HiveQL 的 具体 应 用 给 出 了 相应 的 示范 实例 。Hive 可 以 自由 扩展 集 
群 的 规模 ， 一 般 情 况 下 不 需要 重启 服务 横向 扩展 ， 而 是 通过 分 担 压 力 的 方式 纵向 扩展 集 
群 的 规模 。Hive 支持 自 定义 函数 ， 用 户 可 以 根据 需求 来 实现 自己 的 函数 ; Hive 不 支持 记 
录 级 别 的 增删 改 操作 ,查询 延 时 很 严重 。 


SN 
全 关键 术语 
Wl. 


(1) 分 布 式 数 据 仓库 (2)Hive (3)HiveQL (4) 动 态 分 区 
(5) Meta Store (6)Execution Engine 
习题 

1. 选择 题 
(1) Hive 是 一 个 数据 仓库 基础 工具 ， 在 Hadoop 中 用 来 处 理 ( 。“) 数 据 。 

A. 结构 化 B, 非 结构 化 Cu 半 结 构 化 D, 结构 化 和 半 结 构 化 
(2)Hive 通过 SQL 处 理 Hadoop 的 大 数据 \ 数据 规模 可 以 扩展 到 100( 法 

A. MB+ B. GB+ 人 “TB 十 及 .了 8 十 
(3)Hive 中 使 用 动态 分 区 时 ,创建 的 分 区 表 使 用 ( ) 表 示 小 时 。 

A.h B. ht 

C, hour D. hour time 
(4) 启 用 Hive 动态 分 区 ， 只 需要 在 Hive 会 话 中 设置 ( 。“) 个 参数 。 

站 :1 B2 C3 D. 0 
(5)Hive 采用 对 列 值 散 列 ， 然 后 除 以 ( ) 的 个 数 再 求 余 的 方式 决定 该 条 记录 存放 在 

哪个 桶 中 。 

A. 记录 B. 属性 C. 桶 D. 分 区 
(6) Hive 的 默认 行 换行 符 是 ( )s 

A. \enter B. \n C. enter D. \tab 
2. 判断 题 
(1) Hive 的 存储 结构 包括 数据 库 、 表 、 视 图 、 分 区 和 表 数 据 等 ， 数 据 库 、 表 、 分 区 等 

都 对 应 HDFS 上 的 一 个 目录 。 ( ) 

(2)HiveQL 处 理 引 擎 和 MapReduce 的 结合 部 分 是 Hive 执行 引擎 。 ( ) 


(3)Hive 索引 的 目的 是 提高 Hive 表 指 定 行 的 查询 速度 。 ( ) 








(4)CREATE TABLE 创建 一 个 指定 名 字 的 表 ,， 若 相同 名 字 的 表 已 存在 ， 则 抛 出 


异常 。 


( 


} 


(5) 关 系 型 数据 库 通 过 并 行 化 来 实现 性 能 ， 因 此 更 适用 于 全 表 扫 描 这 样 的 操作 ， 而 不 


是 像 使 用 Hive 那样 操作 。 
(6) Hive 中 的 表 分 为 内 部 表 、 外 部 表 、 分 区 表 和 Bucket 表 。 
3. 简 答 题 
(1) 与 传统 关系 数据 库 比 较 ，Hive 有 哪 几 个 特点 ? 
(2) 如 何 选择 使 用 Hive 内 部 表 和 外 部 表 ? 
(3) Hive 分 区 的 概念 与 传统 关系 型 数据 库 分 区 的 不 同 之 处 是 什么 ? 
(4) Hive 把 表 ( 或 者 分 区 ) 组 织 成 桶 (Bucket) 的 理由 是 什么 ? 
(5) 简 述 Hive 中 支持 的 两 种 类 型 的 分 区 。 
(6) Hive 提供 了 哪些 基本 数据 类 型 ? 
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人 优化 运行 时 间 、 设 置 合适 的 批 次 大 小 和 优化 内 存 使 
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Spark 的 应 用 了 解 Spark 在 亚马逊 、 淘 宝 和 雅虎 中 的 应 用 


Spark 作为 新 一 代 轻 量 级 大 数据 快速 处 理 平台 ,建立 在 抽象 的 RDD(Resilient Distrib- 
uted Datasets， 弹 性 分 布 式 数据 集 ) 之 上 ， 能够 采用 一 致 的 方式 处 理 不 同 应 用 场景 下 的 大 


数据 。 因此， 本章 将 对 基 





F Spark 的 大 数据 处 理 进行 介绍 ， 简 要 阐述 Spark 的 概念 、 特 点 


和 安装 ， 并 分 析 Spark 的 流 数据 处 理 模型 及 其 在 企业 中 的 应 用 。 


6.1 Spark 简介 


因为 Hadoop 能 够 解决 大 多 数 批 处 理工 作 的 负载 问题 所 以 它 已 成 为 大 数据 时 代 企业 
的 首选 技术 。 但 是 随 着 技术 的 推进 ， 人 们 发 现 了 Hadoop 越 来 越 多 的 不 足 ， 例 如 缺少 对 和 迭 
代 的 支持 ; 中 间 数 据 需 要 输出 到 硬盘 存储 ， 产 生 了 较 高 的 延迟 ; MapReduce 在 设计 上 的 
约束 比较 适合 处 理 离线 数据 ， 对 实时 查询 和 和 迭代 计算 上 存在 较 大 的 不 足 ， 而 随 着 具体 业 
务 的 发 展 ， 企 业 对 实时 查询 和 迭代 计算 有 着 更 多 的 需求 。 











因此 ，2009 年 美国 加 州 大 学 伯克利 分 校 AMP 实验 室 的 人 员 基 于 AMPLab 的 集群 计 
算 平 台 ， 从 多 迁 代 批量 处 理 出 发 ， 兼顾 数据 仓库 、 流 处 理 、 机 器 学 习 和 图 计算 等 多 种 计 
算 范 式 ， 正 式 将 Spark 作为 研究 项 目 ， 并 于 2010 年 进行 了 开源 。 

Spark 作为 Apache 顶级 的 开源 项 目 ， 凭 借 着 其 可 伸缩 、 基 于 内 存 计 算 等 特点 以 及 能 
够 直接 读 写 Hadoop 上 任何 格式 数据 的 优势 ， 得 到 了 企业 的 重视 。 下 面 将 对 Spark 的 相关 
概念 、 特 点 和 安装 进行 介绍 。 


Sn 的 


Spark 是 一 个 类 似 于 Hadoop 中 MapReduce 的 分 布 式 处 理 框 架 ， 提 供 了 比 MapRe- 
duce 更 丰富 的 模型 ， 可 以 在 内 存 中 快速 地 对 数据 集 进 行 多 次 迭代 ， 以 支持 复杂 的 数据 挖 
掘 算法 和 图 形 计算 算法 等 。 

1. Spark 中 的 RDD 

RDD 是 分 布 式 内 存 的 一 个 抽象 概念 ， 指 的 是 一 个 只 读 的 、 可 分 区 的 分 布 式 数据 集 ， 
这 个 数据 集 的 全 部 或 部 分 可 以 缓存 在 内 存 中 。RDD 作为 Spark 的 核心 概念 ， 支 持 多 种 来 
源 ， 而且 具 有 容错 机 制 ， 能 够 被 缓存 。RDD 的 5 个 特征 见 表 6-1。 

表 6-1 RDD 的 5 个 特征 
特征 说 明 

有 一 个 数据 分 片 列表 ,能够 将 数据 进行 切 分 , 切 分 后 的 数据 能 够 进行 并 
行 计算 , 是 数据 集 的 原子 组 成 部 分 

计算 每 个 分 片 ， 得 出 一 个 可 遍历 的 结果 ， 用 于 说 明 在 父 RDD 上 执行 何 
种 计算 

计算 每 个 RDD 对 父 RDD 的 依赖 列表 ( 源 RDD 没有 依赖 )， 通 过 依赖 关 
系 描 述 血 统 (Lineage) 























分 区 (Partition) 





函数 (CCompute) 





依赖 (Dependency) 











优先 位 置 每 一 个 分 片 的 优先 计算 位 置 
分 区 策略 描述 分 区 模式 和 数据 存放 的 位 置 


在 这 些 特征 中 ， 分 区 、 函 数 和 依赖 关系 是 RDD 的 基本 特征 ， 优 先 位置 和 分 区 策略 则 
是 可 选 的 特征 。Spark 中 的 依赖 关系 主要 体现 为 两 种 形式 ， 分 别 为 窄 依赖 (Narrow De- 
pendency) 和 宽 依 赖 (Wide Dependency)， 如 图 6.1 所 示 。 穿 依赖 是 指 父 
RDD 的 每 一 个 分 区 最 多 被 一 个 子 RDD 的 分 区 所 用 ,如 Map、Filter 和 
Union; 宽 依赖 是 指 子 RDD 的 每 个 分 区 都 依赖 于 所 有 父 RDD 的 所 有 分 区 
[RDD 分 区 和 吉 或 多 个 分 区 ， 即 存在 一 个 父 RDD 的 一 个 分 区 对 应 一 个 子 RDD 的 多 个 分 
据 块 的 关系 了 区 ， 如 GroupbyKey。 
由 于 Spark 的 一 切 操作 都 是 基于 RDD 的 ,那么 如 何 创 建 RDD 则 变 
得 非常 重要 ， 除 了 可 以 直接 从 父 RDD 转换 ， 还 支持 以 下 两 种 方式 来 创建 RDD。 
(1) 调 用 SparkContext 的 parallelize 方法 ,在 已 经 存在 的 集合 (数组 ;上 创建 RDD。 
(2) 引 个 外 部 文件 存储 系统 (HDFS、HBase 等 ) 中 的 数据 集 。 
2. 基于 Spark 的 伯克利 数据 分 析 栈 
图 6.2 描述 的 是 基于 Spark 的 伯克利 数据 分 析 栈 (Berkeley Data Analysis Stack， 
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BDAS) ， 最 底层 为 HDFS、Amazon S3、Hypertable 或 者 其 他 格式 的 存储 
系统 ， 如 HBase; 资源 管理 采用 Mesos、YARN 等 集群 资源 管理 模式 ,或 
者 Spark 自 带 的 独立 运行 模式 和 本 地 运行 模式 。 在 Spark 大 数据 处 理 框架 加 

中 ，Spark 为 上 层 多 种 应 用 提供 服务 。 例 如 ,Spark SQL 提供 SQL 查询 服 【Spark SQL 
务 ， 性 能 比 Hive 快 3 一 50 倍 ; MLlib 提供 机 器 学 习 服 务 ; GraphX 提供 图 的 概 渤 ] 
计算 服务 ; Spark Streaming 将 流 处 理 分 解 成 一 系列 短小 的 批 处 理 ， 并 且 提 供 高 可 靠 和 吞 
吐 量 服务 。 值 得 说 明 的 是 ， 无论 是 Spark SQL、Spark Streaming、GraphX 还 是 MLlib， 
都 可 以 使 用 Spark 核心 API 处 理 问 题 ， 它 们 的 方法 几乎 是 通用 的 ， 处 理 的 数据 也 可 以 共 
享 ， 这 不 仅 减少 了 学 习 成 本 ， 而 且 通 过 数据 的 无 颖 集成 大 大 提高 了 灵活 性 。 








HDFS、Amazon S3、Hypertable、HBase 


图 6.2 基于 Spark 的 伯克利 数据 分 析 栈 


作为 BDAS 的 核心 组 件 ，Spark 是 一 个 大 数据 分 布 式 编程 框架 ， 它 不 仅 后 F 回 
实现 了 MapReduce 的 Map 函数 和 Reduce 函数 ， 还 提供 了 更 为 丰富 的 算 子 ， 9 
如 Filter、Join、GroupbyKey 等 。Spark 将 分 布 式 数 据 抽象 为 RDD， 实 现 = 
了 应 用 任务 调度 、RPC、 序 列 化 和 压缩 ， 并 为 运行 在 其 上 的 上 层 组 件 提 供 【Spark 本 二 
API。 其 底层 采用 Scala 这 种 函数 式 语 言 书写 而 成 ， 并 且 所 提供 的 API 深度 。 的 分 类】 了 
借鉴 Scala 函数 式 的 编程 思想 ， 提 供与 Scala 类 似 的 编程 接口 。 














Spark 框架 采用 了 分 布 式 计算 中 的 Master/Slave 模型 。Master 是 对 应 集群 中 的 含有 
Master 进程 的 节点 ，Slave 是 集群 中 含有 Worker 进程 的 节点 。 在 Spark 部 署 之 后 ， 需 要 
在 主 节点 和 从 节点 分 别 启动 Master 进程 和 Worker 进程 ， 对 整个 集群 进行 控制 。 在 一 个 
Spark 应 用 程序 的 执行 过 程 中 ，Driver 和 Worker 是 两 个 重要 角色 。Driver 程序 是 应 用 逻 
辑 执行 的 起 点 ， 负 责 作 业 的 调度 ， 即 Task 任务 的 分 发 ， 而 多 个 Worker 用 来 管理 计算 节 
点 和 创建 Executor 并 行 处 理 任务 。 在 执行 阶段 ，Driver 会 将 Task 和 Task 所 依赖 的 file 
和 jar 序列 化 后 传递 给 对 应 的 Worker 机 器 ， 同 时 Executor 对 相应 数据 分 区 的 任务 进行 处 
理 。 从 以 上 内 容 概括 可 得 出 以 下 结论 。 

(1) Master 作为 整个 集群 的 控制 器 ， 负 责 整个 集群 的 正常 运行 。 

(2) Worker 相当 于 计算 节点 ， 接 收 主 节点 命令 与 进行 状态 汇报 。 

(3)Executor 负责 任务 的 执行 。 

(4)Client 作为 用 户 的 客户 端 负 责 提交 应 用 程序 。 

(5)Driver 负责 控制 一 个 应 用 程序 的 执行 。 

3. Spark 的 大 数据 处 理 流程 


图 6. 3 描述 了 Spark 的 处 理 流程 。 在 "Action 算 子 触发 之 后 ， 将 所 有 累 
积 的 算 子 形成 一 个 有 向 无 环 图 然后 由 调度 器 调度 该 图 上 的 任务 进行 运算 。 
【在 抽 无 东 四 Spark 的 调度 方式 与 MapReduse 有 所 不 同 。Spark 根据 RDD 之 间 不 同 的 依 
“3 赖 关 系 切 分 形成 不 同 的 Siage( 阶 段 )， 一 个 阶段 包含 一 系列 函数 执行 流水 
线 。 图 6.3 中 的 方 框 A 一 G 分 别 代表 不 同 的 RDD，RDD 内 的 方 框 代表 分 区 。 数 据 从 
HDFS 输入 Spark， 形 成 RDD A- 和 RDD C， 在 RDDA 和 下 DD C 上 分 别 执行 Map 操作 ， 
转换 为 RDD B 和 RDD D，RDD D 通过 ReducebyKey 转化 成 RDD E，RDD B 和 RDD E 
进行 Join 操作 转换 为 F， 而 在 RDD B 和 RDD 忆 转化 为 F 的 过 程 中 又 会 执行 Shuffle。 最 
后 RDDE 通过 函数 SaveasSequenceFile 输出 保存 到 HDFS 中 。 也 就 是 说 Spark 将 数据 在 
分 布 式 环境 下 分 区 ， 然 后 将 作业 转化 为 有 向 无 环 图 ， 并 分 阶段 进行 有 向 无 环 图 的 调度 和 
任务 的 分 布 式 并 行 处 理 。 
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图 6.3 Spark 的 处 理 流程 
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Spark 对 RDD 的 操作 分 为 两 类 ， 即 图 6. 3 中 的 Transformation 和 Action。Transfor- 
mation 返回 值 还 是 一 个 RDD。 它 使 用 了 链 式 调用 的 设计 模式 ， 对 一 个 RDD 进行 计算 后 ， 
变换 成 另外 一 个 RDD， 然 后 这 个 RDD 又 可 以 进行 另外 一 次 转换 ， 这 个 过 程 是 分 布 式 的 。 
Action 返回 值 不 是 一 个 RDD,， 它 要 么 是 一 个 Scala 的 普通 集合 ,要 么 是 一 个 值 ， 要 么 为 
空 ， 最 终 或 返回 到 Driver 程序 ,或 把 RDD 写 入 文件 系统 中 。 需 要 注意 的 是 ,只 有 Action 
执行 时 RDD 才 会 被 计算 生成 这 是 RDD 懒惰 执行 的 根本 所 在 。 

总 之 ，Spark 凭借 其 良好 的 伸缩 性 、 轻 量 级 快速 处 理 、 具 有 Hadoop 基因 等 一 系列 优 
势 ， 迅 速成 为 大 数据 处 理 领 域 的 佼佼 者 。Apache Spark 已 经 成 为 整合 交互 式 查 询 、 实 时 
流 处 理 、 复 杂 分 析 和 批 处 理 等 的 大 数据 应 用 标准 平台 。 


Spark 的 特点 


作为 新 一 代 轻 量 级 大 数据 快速 处 理 平 台 ，Spark 具有 以 下 几 个 特点 。 

(1) 运 行 速度 快 : Spark 有 先进 的 DAG 执行 引擎 , 支持 循环 数据 流 和 内 存 计算 ; 
Spark 应 用 程序 在 内 存 中 的 运行 速度 是 MapReduce 运行 速度 的 100 信 ， 在 磁盘 上 的 运行 
速度 是 MapReduce 运行 速度 的 10 倍 。 

(2) 易 用 性 : Spark 支持 使 用 Java、Scala 和 .Python 语言 快速 编写 应 用 程序 ， 提 供 超 
过 80 个 的 高 级 运算 符 ， 使 编写 并 行 应 用 程序 变 得 容易 。 

(3) 适 用 场景 广泛 : Spark 可 以 与 SQL、Streaming 以 及 复杂 的 分 析 和 良好 结合 。 基 于 
Spark 有 一 系列 高 级 工具 ,包括 Spark SQL (大 数据 分 析 统 计 )、MLlib( 机 器 学 习 库 )、 
GraphX( 图 计算 ) 和 Spark Streaming( 实 时 数据 处 理 ) ， 并 支持 在 一 个 应 用 中 同时 使 用 这 些 
工具 ， 如 图 6. 2 所 示 。 

(4) 有 效 集成 Hadoop: Spark 可 以 指定 Hadoop* 和 YARN 的 版 本 来 编译 出 合适 的 发 
行 版 本 ，Spark 也 能 够 很 容易 地 运行 在 Mesos、YARN 上 , 或 以 独立 模式 运行 ， 并 从 
HDFS、HBase 和 其 他 Hadoop 数据 源 读 取 数 据 。 

(5) 容 错 性 高 :Spark 基于 RDD 的 概念 ， 即 分 布 在 一 组 节点 中 的 只 读 对 
象 集合 ， 这 些 集合 是 弹性 的 ， 如 果 数 据 集 的 一 部 分 丢失 ， 则 可 以 根据 “ 血 
统 ”( 基 于 数据 衍生 过 程 ) 对 它们 进行 重建 。 另 外 在 RDD 计算 时 可 以 通过 
CheckPoint 来 实现 容错 ， 而 CheckPoint 有 两 种 方式 ， 分 别 为 CheckPoint 

















Spaik 的 
Data 和 Logging the Updates， 用户 可 以 采用 这 两 种 方式 来 实现 容错 。 容错 处 理 】 
(6) 实 现 数据 共享 : 随 着 数据 量 的 增加 ， 数 据 移动 成 本 越 来 越 高 ， 网 络 带宽 、 磁 盘 空 


间 、 磁 盘 IO 都 会 成 为 瓶颈 ， 在 数据 分 散 的 情况 下 ,会 造成 执行 任务 的 成 本 提高 ， 获 得 结 
果 的 周期 变 长 ， 而 数据 共享 模式 可 以 让 多 种 框架 共享 数据 和 硬件 资源 ， 大 幅度 减少 数据 
分 散 所 带 来 的 成 本 。 


sot ae 


Spark 的 安装 简便 ， 用 户 可 以 在 官网 下 载 最 新 的 软件 包 。Spark 最 早 是 为 了 在 Linux 
平台 上 使 用 而 开发 的 ， 在 生产 环境 中 也 是 部 署 在 Linux 平 台 上 的 , 但 是 Spark 在 UNIX、 
Windwos 和 Mac OS X 系 统 上 也 能 良好 运行 。 不 过 ,在 Windows 上 运行 Spark 稍 显 复杂 ， 
必须 先 安装 Cygwin 来 模拟 Linux 环境 ,才能 安装 Spark。 
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由 于 Spark 主要 使 用 HDFS 充当 持久 化 层 ， 所 以 要 想 完整 地 使 用 Spark 就 需要 预先 
安装 Hadoop。 下 面 将 分 别 介绍 Spark 在 Linux 和 Windows 上 的 安装 和 部 署 。 


1. Spark 在 Linux 上 的 安装 


在 生产 环境 中 ，Spark 主要 部 署 在 Linux 系统 中 ,并 且 需 要 预先 安装 JDK、 
Scala 等 所 需 的 环境 。 本 节 将 简要 介绍 如 何在 Linux 上 安装 与 配置 Spark。 

(1) 安 装 JDK。 

用 户 先 在 Oracle JDK 的 官网 下 载 相应 版 本 的 JDK， 然 后 在 解压 出 的 
JDK 目录 下 执行 bin 文件 ， 并 配置 环境 变量 。 

(2) 安 装 Scala。 

Scala 官网 提供 了 各 个 版 本 的 Scala， 用 户 需 要 根据 Spark 官方 规定 的 Scala 版 本 进行 
下 载 和 安装 。 

(3) 配 置 ssh 免 密 码 登 录 。 

在 集群 管理 和 配置 中 有 很 多 工具 可 以 使 用 ， 例 如 可 以 采用 Pssh 等 Linux 工具 在 集群 
中 分 发 与 复制 文件 ， 用 户 也 可 以 自己 编写 Shell、Python 的 脚本 分 发 包 。 

Spark 的 Master 节点 向 Worker 节点 命令 需要 通过 ssh 进行 发 送 ， 用 户 不 希望 Master 
每 发 送 一 次 命令 就 输入 一 次 密码 ， 因 此 需要 实现 Master 无 密码 登录 到 所 有 Worker。 

作为 客户 端 ，Master 要 实现 无 密码 公 钥 认证 ， 连 接 服 务 端 Worker。 需 要 在 Master 上 生 
成 一 个 密 钥 对 ， 包 括 一 个 公 钥 和 一 个 私 钥 ; 然后 将 公 钥 复制 到 Worker 上 。 当 Master 通过 
ssh 连接 Worker 时 ，Worker 就 会 生成 一 个 随机 数 并 用 Master 的 公 钥 对 随机 数 进行 加 密 ， 发 
送 给 Worker。Master 收 到 加 密 数 之 后 再 用 私 钥 进 行 解密 ,并 将 解密 数 回 传 给 Worker， 
Worker 确认 解密 数 无 误 之 后 ， 人 允许 Master 进行 连接 ; 这 就 是 一 个 公 钥 认证 过 程 ， 其 间 不 需 
要 用 户 手 工 输入 密码 ， 主 要 过 程 是 将 Master 节点 公 钥 复制 到 Worker 节点 上 。 

下 面 介 绍 如 何 配置 .Master 节点 与 Worker 之 间 的 ssh 免 密码 登录 。 

a 在 Master 节点 上 ， 执行 命令 ssh- Keygen-trsa。 

@ 打印 日 志 , 把 Master 上 的 id_rsa. pub 文件 追加 到 Worker 的 authorized_Keys 内 。 

加 复制 Master 的 id_rsa. pub 文件 。 

@ 登录 Worker 节点 ， 执 行 命令 cat /home/id_rsa. pub 二 二 /root/. ssh/ authorized_Keys。 

(4) 安 装 Hadoop。 

用 户 首先 选取 一 个 Hadoop 镜像 网 址 ， 下 载 相 应 的 Hadoop 并 进行 解压 ,接着 配置 
Hadoop 的 环境 变量 并 编辑 相关 的 配置 文件 。 创 建 NameNode 和 DataNode 目录 ， 并 配置 
其 相应 路 径 。 然 后 配置 Master 和 Slave 文件 ,将 Hadoop 所 有 文件 通过 pssh 发 送 到 各 个 
节点 ,格式 化 NameNode。 最 后 启动 Hadoop ， 查 看 是 否 配置 和 启动 成 功 。 

(5) 安 装 和 启动 Spark。 

用 户 首先 下 载 Spark 并 解压 文件 ， 配 置 参数 和 Slaves 文件 ， 最 后 启动 Spark， 查 看 是 
否 安 装 成 功 。 

2. Spark 在 Windows 上 的 安装 


本 节 将 简要 阐述 在 Windows 系统 上 安装 Spark 的 步 又。 在 安装 Spark 之 前 ， 需 要 部 
署 好 Cygwin 来 模拟 Linux 环境 。 








【Spark 的 
运行 模式 】 








(1) 安 装 JDK。 

相对 于 Linux，Windows 的 JDK 安装 更 加 自动 化 用户 可 以 下 载 安装 Oracle JDK 或 
者 OpenJDK。 安 装 过 程 十 分 简单 ， 运行 二 进 制 可 执行 文件 即 可 ， 程 序 会 自动 配置 环境 变 
量 , 无 须 用 户 手动 配置 。 

(2) 安 装 Cygwin。 

Cygwin 是 在 Windows 系统 中 模拟 Linux 环境 的 一 个 非常 有 用 的 工具 ， 只 有 通过 它 才 
可 以 在 Windows 环境 下 安装 Hadoop 和 Spark。 具 体 安装 步骤 如 下 。 

@ 运行 安装 程序 ， 选 择 Install from Internet。 

@ 选择 网 络 最 好 的 下 载 源 进行 下 载 。 

@ 配置 Openssl 和 Openssh， 为 之 后 的 ssh 无 密 钥 登录 做 准备 。 

@ 配置 环境 变量 ,添加 Cygwin 的 bin 和 usr\bin 两 个 目录 。 

(3) 安 装 sshd 并 配置 ssh 免 密码 登录 。 

启动 Cygwin， 执 行 ssh-host-config -y 命令 并 输入 和 确认 密码 ， 然 后 启动 服务 ， 最 后 
执行 命令 生成 密 钥 文件 和 authorized_Keys 文件 。 

(4) 安 装 Hadoop 和 Spark。 

此 过 程 与 Linux 环境 下 的 步骤 相似 ,不 再 袭 述 。 


soa 


Spark 中 的 机 器 学 习 库 (MLlib)、 旨 在 简化 机 器 学 习 的 工程 实践 工作 ， 并 方便 扩展 到 
更 大 规模 。MLlib 由 一 些 通用 的 学 习 算 法 和 工具 组 成 , 包括 分 类 、 回 归 、 聚 类 、 协 同 过 
滤 、 降 维 等 ， 同 时 还 包括 底层 的 优化 原 语 和 高 层 的 管道 API。 具 体 来 说 ， 主 要 包括 以 下 几 
方面 的 内 容 。 

(1) 算 法 工具 ;= 常用 的 学 习 算 法 ， 如 分 类 、 回 归 、 聚 类 和 协同 过 滤 。 

(2) 特 征 化 公交 :; 特征 提取 、 转 化 、 降 维和 选择 公交 。 

(3) 管 道 ; "用 于 构建 、 评 估 和 调整 机 器 学 习 管 道 的 工具 。 

(4) 持 久 性 : 保存 和 加 载 算法 、 模 型 和 管道 。 

55) 实用 工具 : 线性 人 代数、 统计、 数据 处 理 等 工具 。 

Spark 机 器 学 习 库 从 1. 2 版 本 以 后 被 分 为 以 下 两 个 包 。 

(1)Spark. mllib 包含 基于 RDD 的 原始 算法 API。Spark MLlib 历史 比较 长 ,在 1.0 
以 前 的 版 本 即 已 经 包含 了 ， 提 供 的 算法 实现 都 是 基于 原始 的 RDD。 

(2)Spark. ml 则 提供 了 基于 DataFrames 高 层次 的 API， 可 以 用 来 构建 机 器 学 习 流水 
线 (PipeLine)。ML Pipeline 弥补 了 原始 MLlib 的 不 足 ， 向 用 户 提供 了 一 个 基于 Dat- 
aFrame 的 机 器 学 习 流水 线 式 API 套件 。 

使 用 ML Pipeline API 可 以 很 方便 地 把 数据 进行 处 理 、 特 征 转换 、 正 则 化 以 及 多 个 机 
器 学 习 算法 联合 起 来 ,构建 一 个 单一 完整 的 机 器 学 习 流 水 线 。 这 种 方式 提供 了 更 灵活 的 
方法 ,更 符合 机 器 学 习 过 程 的 特点 ， 也 更 容易 从 其 他 语言 迁移 。Spark 官方 推荐 使 用 
Spark. ml。 如 果 新 的 算法 能 够 适用 于 机 器 学 习 管 道 的 概念 ， 就 应 该 将 其 放 到 Spark. ml 包 
中 ， 如 特征 提取 器 和 转换 器 。 需 要 注意 的 是 ， 从 Spark 2. 0 开始 ， 基 于 RDD 的 API 进入 
维护 模式 ( 即 不 增加 任何 新 的 特性 )， 并 预期 于 3. 0 版 本 的 时 候 被 移 除 出 MLLib。 
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Spark 在 机 器 学 习 方面 的 发 展 非常 快 ， 目 前 已 经 支持 主流 的 统计 和 机 器 学 习 算 法 。 纵 
观 所 有 基于 分 布 式 架构 的 开源 机 器 学 习 库 ，MLlib 可 以 算是 计算 效率 最 高 的 。MLlib 目前 
支持 4 种 常见 的 机 器 学 习 问 题 : 分 类 、 回 归 、 聚 类 和 协同 过 滤 。 

近年 来 ， 推 荐 系统 的 影响 力 又 增 ，Amazon 用 它 来 推荐 图 书 ，Netflix 用 它 来 推荐 电 
影 ，Google News 用 它 来 推荐 新 闻 。 推 荐 引擎 算法 可 以 自动 发 现 潜在 特征 ， 例 如 某 个 用 户 
喜欢 一 部 电影 而 不 喜欢 另 一 部 是 由 潜在 特征 引起 的 ,如果 另 一 个 用 户 拥 有 相同 的 潜在 特 
征 ， 那 么 他 也 会 有 相同 的 电影 品味 。 为 了 更 好 理解 ， 以 表 6-2 的 电影 评分 为 例 。 

表 6-2 电影 评分 
电影 Rich Bob Peter Chris 

泰坦 尼克 号 5 6 

007 之 黄金 眼 3 1 
玩具 总 动员 1 2 

4 9 
4 
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桃色 机 密 
王牌 威 龙 
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假设 推荐 系统 的 目标 是 预测 出 表 6- 2 中 标记 为 “?” 的 缺失 项 。 首 先 找 出 电影 的 相关 
特征 ， 其 所 对 应 的 电影 流派 见 表 6 -3。 

















表 633 电影 流派 
电影 流 派 
泰坦 尼克 号 动作 片 、 爱 情 片 
007 之 黄金 眼 动作 片 、 探 险 片 、 惊 悚 片 
玩具 总 动员 动画 片 、 儿 童 片 、 喜 剧 片 
桃色 机 密 剧情 片 
王牌 威 龙 喜剧 片 





每 部 电影 的 每 个 流派 都 可 以 被 打分 ， 分 值 在 0 到 1 之 间 ， 例 如 《007 之 黄金 眼 》 的 主 
要 流派 不 是 爱情 片 ， 所 以 给 它 的 爱情 片 流派 评分 为 0. 1， 而 给 它 在 动作 片 流派 上 打 0.98 
分 。 可 以 从 GroupLens 下 载 相 应 的 电影 评分 数据 ， 相 关 的 文件 有 电影 评分 数组 文件 
u, data 和 电影 数组 文件 u iterm。 

协同 过 滤 是 推荐 系统 中 最 常用 的 技术 ， 这 种 技术 有 自身 学 习 特征 。 因 此 ， 在 电影 评 
分 的 例子 中 ， 不 需要 提供 观众 的 关于 电影 是 浪漫 片 还 是 动作 片 的 反馈 。 也 就 是 说 ， 电 影 
具有 一 些 潜在 特征 ， 如 流派 ; 用 户 也 有 一 些 潜在 特征 ， 如 年 龄 。 而 协同 过 滤 不 需要 知道 
这 些 ， 它 会 自动 发 现 这 些 潜在 特征 。 

下 面 将 使 用 最 小 交替 二 乘法 (Alternating Least Squares，ALS) 进 行 推荐 。 该 算法 解 
释 了 一 部 电影 和 一 个 用 户 之 间 的 少量 潜在 特征 的 关联 。 它 使 用 了 3 个 训练 参数 ， 分 别 为 排 
名 、 和 迭代 次 数 和 lambda(lambda 为 某 匿 名 函数 ,表达 式 的 名 称 由 入 演算 得 出 )。 要 和 弄 清楚 
这 3 个 参数 的 最 佳 值 ， 最 好 的 方法 是 尝试 不 同 的 值 并 找到 最 小 均 方 根 误差 .该 误差 类 似 于 
标准 差 . 但 它 是 基于 模型 的 结果 ,而 不 是 实际 数据 。 

















01) 准备 工作 。 
将 从 GroupLens 下 载 的 moviedata 上 传 到 hdfs 上 的 moviedata 目录 下 。 


$ hdfs dfs -put moviedata moviedata 


在 该 数据 库 中 增加 一 些 个 人 评分 以 便 测 试 推荐 系统 的 精确 性 ,个 人 电影 评分 示例 见 
表 6-4。 


表 6-4 个 人 电影 评分 示例 




















电影 ID 电影 评分 (1~5) 
313 泰坦 尼克 号 5 
007 之 黄金 眼 3 
1 玩具 总 动员 1 
43 桃色 机 密 4 
67 王牌 威 龙 4 








(2) 将 个 人 电影 数据 上 传 到 HDFS。 
村 > XI 
$ hdfs dfs -put p. data p. data 本 


(3) 导 入 ALS 和 Rating 类 。 


scala> import org. apache. .pase Llib A 
scala> import org. apache, fa mllib. 3 ting 


(4) 将 评分 数据 导入 RDD。 
scala> val 1 gats oc. textFilel(" movicaata7u data") 
(5) 将 val 数据 变换 (Transform) 到 评分 (Rating)RDD。 


scala> val ratings= data.map {line= > val Array (userID, itemID, rating, _)= 
line. split ("™ \t") 
Rating (userId. toInt, itemId. toInt, rating.toDouble)} 


(6) 将 个 人 评分 数据 导入 RDD。 
scala> valpdata= sc. textFile(" p. data") 
(7) 将 数据 变换 到 个 人 评分 RDD。 


scala> val ratings= data.map {line= > val Array (userID, itemID, rating)= 
line. split (",") 
Rating (userId. toInt, itemId. toInt, rating.toDouble)} 


(8) 绑 定 评分 数据 和 个 人 评分 数据 。 


scala> valmovieratings= ratings. union (Pratings) 





(9) 使 用 ALS 建立 模型 ， 设 定 rank 为 5， 迭代 次 数 为 10, lambda 为 0. 01 。 


(10) 在 此 模型 上 进行 预测 评分 ， 如 电影 ID 为 195 的 《终结 者 》。 


具体 代码 部 分 如 下 所 示 。 











随 着 信息 技术 的 发 展 ， 人 们 对 大 数据 的 处 理 要 求 也 越 来 越 高 ,传统 的 批 处 理 框 架 
MapReduce 虽然 适合 离线 计算 ,但 是 无 法 满足 实时 性 要 求 较 高 的 业务 ， 如 实时 推荐 、 用 









户 行为 分 析 等 。Spark Streaming 是 建立 在 Spark 上 的 实时 计算 框架 ,通过 它 所 提供 的 丰 
富 的 API 及 基于 内 存 的 高 速 执行 引擎 ， 用户 可 以 进行 流 处 理 、 批 处 理 和 交互 式 查 询 应 用 。 
下 面 将 介绍 Spark Streaming 实时 计算 框架 的 概述 、 架 构 、 工 作 原 理 和 性 能 调 优等 。 


Spark Streaming 的 概述 


Spark 是 一 个 类 似 于 MapReduce 的 分 布 式 计 算 框架 ,其 核心 是 RDD， 提供 了 比 Ma- 
pReduce 更 丰富 的 模型 ， 可 以 快速 地 在 内 存 中 对 数据 集 进 行 多 次 迭代 ， 以 支持 复杂 的 数据 
挖掘 算法 和 图 形 计算 算法 。Spark Streaming 是 一 种 构建 在 Spark 上 的 实时 计算 框架 ， 它 
扩展 了 Spark 处 理 大 规模 流 数据 的 能 力 。 

Spark Streaming 将 数据 流 以 时 间 片 为 单位 分 割 形成 RDD, 使 用 RDD 操作 处 理 每 一 块 数 
据 ， 每 块 数据 都 会 生成 一 个 Spark Job 进行 处 理 ， 最 终 以 批 处 理 的 方式 处 理 每 个 时 间 片 的 数据 。 


1. Spark Streaming 中 的 DStream 


Spark Streaming 提供 了 一 种 称 为 DStream(Discretized Stream， 离 散 流 ) 的 高 级 抽象 
连续 数据 流 。DStream 可 以 从 数据 源 ( 如 Kafka、Flume 和 ,Kinesis) 的 输入 数据 流 进行 创 
建 ， 也 可 以 在 其 他 DStream 上 应 用 一 些 高 级 操作 来 创建 。DStream 由 一 系列 连续 的 RDDs 
表示 ， 是 Spark 对 不 可 变 的 分 布 式 数据 集 的 抽象 应 用 于 DStream 的 任何 操作 都 将 转换 
为 对 底层 RDDs 的 操作 。DStream 中 的 每 个 RDD 都 包含 来 自 一 个 时 间 间 隔 的 数据 。 

DStream 的 核心 思想 是 将 计算 作为 一 系列 较 小 时 间 间 隔 的 、 与 状态 无 关 的 、 确 定 批 
次 的 任务 ， 每 个 时 间 间 隔 内 接收 的 输入 数据 被 可 靠 存 储 在 集群 中 ， 作 为 一 个 输入 数据 集 。 
当 某 个 时 间 间 隔 完成 后 ， 将 对 相应 的 数据 集 并 行 地 进行 Map 、Reduce 和 GroupBy 等 操 
作 ， 产 生 中 间 数 据 或 输出 新 的 数据 集 ， 并 存储 在 RDD 中 。 任 务 间 的 状态 可 以 通过 RDD 
重新 计算 ， 得 益 于 计算 任务 被 分 解 成 一 系列 的 小 任务 ,用户 可 以 在 合适 的 粒度 上 呈现 任 
务 间 的 依赖 关系 ,而 且 DStream 也 能 采用 强大 的 错误 恢复 技术 ， 如 并 行 恢复 。 基 于 
DStream 实现 的 Spark Streaming 模型 如 图 6: 4 所 示 。 














按 批 次 切 分 数 使 用 DStream 
据 流 表示 流 计算 


Spark 执 行 
RDD 转 换 


批 处 理 Jobs 


图 6.4 基于 DStream 实现 的 Spark Streaming 模型 


Spark Streaming 模型 将 实时 输入 数据 流 按 批 次 切 分 成 多 个 RDD， 或 者 使 用 流 计 算 将 

















Spark Streaming 中 针对 DStream 的 Transformation 操作 变 为 针对 Spark 中 对 RDD 的 
Transformation 操作 ， 然 后 批 处 理 Jobs。 再 将 RDD 经 过 操作 变 成 中 间 结 果 保 存在 内 存 
中 ， 可 能 涉及 内 存 管理 和 任务 调度 ， 最 后 得 到 处 理 的 结果 。 

DStream 中 常见 的 有 Input DStream， 是 从 流 数 据 源 中 获取 得 到 的 原始 数据 流 。Spark 
Streaming 有 以 下 两 种 类 型 的 输入 流 数 据 源 。 

(1) 基 本 输入 源 : 能 够 直接 应 用 于 StreamingContext API 的 输入 源 ， 如 文件 系统 、 套 
接 字 连 接 和 Akka Actor。 

(2) 高 级 输入 源 : 能 够 应 用 于 特定 工具 类 的 输入 源 ， 如 Kafka、Flume 和 Kinesis 等 。 

除了 文件 流 以 外 ， 每 个 Input DStream 都 会 对 应 一 个 单一 的 接收 器 对 象 ， 该 接收 器 对 
象 从 数据 源 接收 数据 并 且 存 入 Spark 的 内 存 中 进行 处 理 。 在 Streaming 应 用 程序 中 ， 可 以 
创建 多 个 Input DStream 并 行 接收 多 个 数据 流 。 

每 个 接收 器 是 一 个 长 期 运行 在 Worker 或 者 Executor 上 的 任务 ,因此 它 将 占用 分 配 
给 Spark Streaming 应 用 程序 的 一 个 核 。 为 了 保证 一 个 或 者 多 个 接收 器 能 够 接收 数据 ， 需 
要 分 配给 Spark Streaming 应 用 程序 足够 多 的 核 数 。 此 外 需要 注意 以 下 两 点 。 

(1) 当 分 配给 Spark Streaming 应 用 程序 的 核 数 小 于 或 者 等 于 Input DStream (或 者 接 
收 器 ) 的 数量 时 ， 系 统 仍然 能 够 接收 数据 ， 但 是 却 没 有 能 力 全 部 处 理 。 

(2) 运 行 本 地 模式 时 ， 当 Master 的 URL 设置 为 Local 模式 时 ， 将 会 只 有 一 个 核 来 运 
行 任务 ， 而 这 对 于 程序 来 说 是 不 够 的 。 极 限 情况 下 ， 程 序 只 有 一 个 Input DStream 接收 数 
据 ， 此 时 将 独占 这 一 个 核 ， 因 此 程序 将 没有 多 余 的 核对 数据 进行 其 他 变换 操作 。 

2. Spark Streaming 应 用 程序 的 物 建 


Spark Streaming 应 用 程序 与 Spark 应 用 程序 非常 相似 ， 由 用 户 构 建 执行 逻辑 ， 内 部 
主 驱动 程序 来 调用 用 户 实现 的 逻辑 ， 持 续 不 断 地 以 并 行 的 方式 对 输入 的 流 数 据 进行 处 理 。 
构建 Spark Streaming 的 应 用 程序 主要 分 为 以 下 几 个 步 又。 

(1) 创 建 StreamingContext 对 象 。 回 回 

与 Spark 初始 需要 创建 SparkContext 对 象 相似 ,使 用 Spark Streaming 
需要 创建 StreamingContext 对 象 。 创 建 StreamingContext 对 象 所 需 的 参数 
与 SparkContext 基本 一 致 ， 包 括 指明 Master 和 设 定名 称 ， 如 Network- [eoniConiet 
WordCount。 需 要 注意 的 是 Spark Streaming 需要 指定 处 理 数据 的 时 间 间 。 的 原理 】 
隔 ， 如 参数 Seconds(1) 中 的 1s， 指 定之 后 Spark Streaming 就 会 以 1s 为 时 间 窗 口 进 行 数 
据 处 理 。Seconds 参数 需要 根据 用 户 的 需求 和 集群 的 处 理 能 力 来 进行 适当 设置 。 

(2) 创 建 Input DStream。 

如 同 Storm 中 的 Spout，Spark Streaming 需要 指明 数据 源 。Spark Streaming 能 够 支持 多 
种 不 同 的 数据 源 ， 包 括 KafkaStream、FlumeStream、FileStream 和 NetworkStream 等 。 

(3) 操 作 DStream 。 

对 于 从 数据 源 得 到 的 DStream， 用 户 可 以 在 其 基础 上 进行 各 种 操作 ,如 Map、 
Reduce 和 GroupBy 等 。 

(4) 启 动 Spark Streaming。 

前 面 的 3 个 步骤 只 是 创建 了 执行 流程 程序 没有 真正 连接 上 数据 源 ， 也 没有 对 数据 进 
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行 任何 操作 ， 只 是 设 定好 了 所 有 的 执行 计划 ， 当 ssc. start( ) 启 动 后 程序 才 真 正 进行 所 有 
预期 的 操作 ， 此 时 Spark Streaming 应 用 程序 才 算 构 建成 功 。 

3. Spark Streaming 的 优点 

Spark Streaming 在 对 数据 进行 实时 处 理 方面 有 以 下 几 个 优点 。 

(1) 简 单 : 轻 量 级 上 且 具 备 功能 强大 的 API，Spark Streaming 人 允许 开发 人 员 快速 开 发 流 
程序 。 

(2) 集 成 : 支持 多 种 来 源 的 流 数 据 ， 为 流 处 理 和 批 处 理 重用 了 相同 的 代码 ， 可 以 将 流 
数据 保存 到 历史 数据 中 , 能 够 调用 Spark SQL、MLlib 、GraphX 等 其 他 子 框架 来 实现 多 
种 数据 处 理 功 能 。 

(3) 容 错 : 相 比 于 其 他 的 流 解决 方案 ，Spark Streaming 无 须 额外 的 代码 和 配置 ， 就 可 
以 做 大 量 的 恢复 和 交付 工作 。 


Spark Streaming 的 架构 Re 


Spark Streaming 运行 在 Spark 上 ， 它 的 架构 如 图 65 所 示 。 
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图 6.5 Spark Streaming 的 架构 






图 6.5 中 的 StreamingContext 为 Spark Streaming 的 入 口 ; DStream Graph 负责 处 理 
DStream 的 依赖 关系 ; Network Input Tracker 通过 接收 器 接收 流 数据 ， 并 将 流 数 据 映射 
为 Input DStream; Job Scheduler 周期 性 地 查询 DStream 图 , 通过 输入 的 流 数据 生成 
Spark Job， 将 Spark Job 提交 给 Job Manager 执行 ; Job Manager 维护 一 个 Job 队列 ， 将 
队列 中 的 Job 提交 到 Spark 执行 。 

Spark Streaming 将 流 计算 分 解 成 一 系列 短小 的 批 处 理 作业 ， 也 就 是 把 Spark Stream- 
ing 的 输入 数据 按照 Batch Interval 分 成 一 段 段 的 数据 (DStream)， 每 一 段 数 据 都 转换 成 
Spark 中 的 RDD， 然 后 将 Spark Streaming 中 对 DStream 的 Transformation 操作 变 为 针对 
Spark 中 对 RDD 的 Transformation 操作 ,将 RDD 经 过 操作 变 成 中 间 结 果 保 存在 内 存 中 。 
整个 流 处 理 可 以 根据 业务 的 需求 将 中 间 的 结果 进行 琶 加 或 者 存储 到 外 部 设备 。 


Spark Streaming 的 工作 原理 


Spark Streaming 属于 核心 Spark API 的 扩展 ， 支 持 实时 数据 流 的 可 扩展 、 高 吞吐 、 











容错 的 流 处 理 。 它 可 以 接收 来 自 Kafka、Flume 和 Kinesis 等 的 数据 源 ， 也 可 以 使 用 Map、 

Reduce 和 Join 等 函数 表示 的 复杂 算法 进行 处 理 , 处理 的 结果 数据 可 以 输出 到 文件 系统 、 

数据 库 和 仪表 盘 等 ， 也 可 以 直接 使 用 内 置 的 机 器 学 习 算 法 、 图 形 处 理 算 法 进行 数据 处 理 。 
由 于 Spark Streaming 与 传统 细 粒 度 处 理 的 流 框 架 有 所 不 同 ， 在 介绍 Spark Streaming 的 

工作 原理 之 前 ， 需 要 对 批 处 理 间 隔 、 滑 动 间 隔 和 窗口 间隔 这 3 个 重要 的 时 间 概 念 进行 说 明 。 
1. 批 处 理 间 隔 (Batch Duration) 


在 Spark Streaming 中 ， 处 理 数 据 的 单位 是 一 批 而 不 是 单条 ， 而 数据 采集 却 是 逐条 进 
行 的 ， 因 此 Spark Streaming 系统 需要 设置 间隔 使 得 数据 汇总 到 一 定 的 量 后 再 一 并 操作 ， 
这 个 间隔 就 是 批 处 理 间隔 。 

批 处 理 间隔 是 Spark Streaming 的 核心 概念 和 关键 参数 ， 它 决定 了 Spark Streaming 
提交 作业 的 频率 和 数据 处 理 的 延迟 ， 同 时 也 影响 着 数据 处 理 的 吞吐 量 和 人 性 能 。 

2. 滑动 间隔 (Slide Duration) 和 窗口 间隔 (Window Dutation》 

这 两 个 参数 通常 都 出 现在 基于 窗口 的 操作 上 。 在 默认 情况 下 ,滑动 间隔 被 设置 为 与 
批 处 理 间隔 相同 ， 而 窗口 间隔 可 以 设置 为 更 大 的 时 间 窗 口 。 同 时 ， 这 两 个 参数 也 可 以 由 
用 户 设置 得 完全 不 同 于 批 处 理 间隔 ， 以 得 到 用 户 想 要 的 结果 。 需 要 注意 的 是 ， 因 为 在 
Spark Streaming 内 部 ， 数 据 处 理 和 作业 提交 的 最 小 单位 是 批 处 理 间隔 ， 所 以 滑动 间隔 和 
窗口 间隔 的 设置 必须 是 批 处 理 间隔 的 整数 倍 。 

Spark Streaming 的 工作 原理 如 图 6.6 所 示 ， 该 图 显示 了 整个 Spark Streaming 的 大 数 
据 处 理 流程 ， 在 接收 到 实时 输入 数据 流 后 ， 将 数据 划分 成 批 次 ， 然 后 传 给 Spark Engine 
处 理 ， 按 批 次 生成 最 后 的 结果 流 。 





批 次 的 输入 按 批 次 处 理 过 
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图 6.6 Spark Streaming 的 工作 原理 

Spark Streaming 将 流 计算 分 解 成 一 系列 短小 的 批 处 理 作 业 ， 具 有 以 下 几 个 特性 。 
(1) 能 线性 扩展 至 超过 数 百 个 节点 。 

(2) 实 现 亚 秒 级 延迟 处 理 。 

(3) 可 与 Spark 批 处 理 和 交互 式 处 理 无 颖 集成 。 

(4) 提 供 了 简单 的 API 实现 复杂 的 算法 。 

(5) 更 多 的 网 络 流 方式 支持 ,包括 Kafka、Flume 和 Kinesis 等 。 


Spark Streaming 的 性 能 调 优 3 
回 me 














要 想 Spark Streaming 应 用 程序 在 集群 中 获得 最 佳 性 能 实践 ， 需 要 对 一 9 
些 参数 进行 调 优 。 主 要 需 考虑 以 下 两 个 方面 。 区 
(1) 有 效 使 用 集群 资源 ,减少 每 批 次 数据 的 处 理 时 间 。 性 能 诊断 】 


(2) 设 置 合理 的 窗口 大 小 ， 从 而 使 数据 尽 可 能 快 地 得 到 处 理 ， 即 数据 处 理 和 数据 接收 
的 节奏 一 致 。 











1. 优化 运行 时 间 

优化 运行 时 间 可 以 降低 每 个 批 次 数据 的 处 理 时 间 ， 主 要 包括 提升 数据 接收 和 处 理 的 
并 行 度 ， 减少 序列 化 和 反 序 列 化 负担 ,优化 内 存 使 用 ,减少 任务 提交 和 分 发 开销 。 

(1) 提 升 数据 接收 的 并 行 度 。 

通过 网 络 接收 数据 (如 Kafka、Flume 和 套 接 字 等 ) 需 要 将 数据 反 序列 化 并 存储 在 
Spark 上 ， 如 果 数 据 接收 成 为 系统 中 的 瓶颈 ， 则 需要 并 行 接收 数据 。 主 要 通过 提升 Re- 
ceiver 的 并 发 度 和 调整 Receiver 的 RDD 数据 分 区 时 间 间 隔 。 

名 提升 Receiver 的 并 发 度 : 在 Worker 节点 上 通过 创建 多 个 DStream， 并 配置 从 数据 
源 接收 不 同 分 区 的 数据 流 ， 从 而 实现 接收 多 个 数据 流 。 例 如 ， 原 来 单个 Input DStream 接 
收 Kafka 中 两 个 Topic 的 数据 ， 现 在 可 以 创建 两 个 Input DStream， 每 个 只 接收 一 个 Top- 
ic 的 数据 。 这 将 运行 两 个 接收 器 ， 人 允许 并 行 接收 数据 ， 从 而 提高 总 体 吞 吐 量 。 这 些 多 个 
DStream 可 以 联合 起 来 生成 一 个 DStream。 然 后 ， 应 用 于 单个 Input DStream 的 Trans- 
formation 可 以 被 应 用 于 统一 后 的 数据 流 。 

@ 调整 Receiver 的 RDD 数据 分 区 时 间 间 隔 : 通过 修改 BlockInterval 参数 ， 调 整 Re- 
ceiver 的 Blocking Interval， 对 于 大 多 数 的 Receiver， 接收 到 的 数据 首先 被 合并 成 大 的 数 
据 块 ， 然 后 存储 在 Spark 的 内 存 中 。 

每 个 批 次 中 数据 块 的 数目 决定 了 在 使 用 类 似 于 Map 的 转换 操作 处 理 接收 的 数据 时 的 
任务 数量 。 每 个 接收 器 中 每 批 数据 的 任务 数量 约 等 于 批 处 理 间隔 除 以 块 处 理 间隔 的 值 。 
例如 ，200ms 的 块 处 理 间隔 将 每 2S 批 次 创建 10 个 任务 。 如果 任务 数量 太 少 ( 即 小 于 每 台 
机 器 的 CPU 核心 数 )， 则 无 法 充分 利用 所 有 可 用 的 CPU 内 核 来 处 理 数据 ， 所 以 效率 会 降 
低 。 如 果 想 要 增加 给 定 批 处 理 间隔 的 任务 数量 ,那么 就 应 减少 块 处 理 间隔 。 但 是 ， 建 议 
的 块 处 理 间 隔 的 最 小 值 约 为 50ms， 低 于 此 值 时 任务 启动 的 开销 会 占 比 过 大 。 使 用 多 个 输 
人 入流 或 接收 器 接收 数据 的 替代 方法 是 手动 对 输入 数据 流 重新 进行 分 区 。 在 进一步 的 数据 
处 理 操作 之 前 ，Spark 会 将 接收 到 的 批 次 数据 分 发 到 集群 中 指定 数量 的 计算 机 上 。 

(2) 提 升 数据 处 理 的 并 行 度 。 

在 数据 处 理 的 任意 阶段 ， 如 果 启 动 的 并 行 任务 数量 不 够 多 ， 则 集群 资源 就 可 能 未 得 
到 充分 利用 。 例 如 ， 对 于 ReducebyKey 和 ReducebyKeyandWindow 等 的 分 布 式 聚合 操 
作 ， 默 认 并 行 任务 数 由 spark. default. parallelism 配置 属性 控制 。 

确保 均衡 地 使 用 整个 集群 的 资源 ， 而 不 是 把 任务 集中 在 几 个 特定 的 节点 上 ， 对 于 包 
含 Shuffle 的 操作 ， 增 加 其 并 行 度 以 确保 更 充分 地 使 用 集群 资源 。 

53) 减少 序列 化 和 反 序 列 化 负担 。 

数据 序列 化 主要 包括 以 下 两 方面 内 容 。 

J@D 输入 数据 序列 化 : 在 默认 情况 下 ， 通 过 Receivers 接收 的 输入 数据 存储 在 Executor 
的 存储 器 中 。 也 就 是 说 ,将 数据 序列 化 为 字 节 形式 以 减少 GC(Garbage Collector， 内 存 垃 
圾 收集 器 ) 开 销 ， 并 对 数据 进行 复制 以 对 Executor 故障 进行 容错 。 此 外 ,数据 首先 会 保留 
在 内 存 中 ， 并 且 只 有 在 内 存 不 足以 容纳 流 计算 所 需 的 所 有 输入 数据 时 才 会 溢出 到 磁盘 。 
这 个 序列 化 过 程 显 然 有 一 定 的 开销 ， 即 接收 器 必须 先 将 接收 的 数据 反 序列 化 ， 然 后 再 使 
用 Spark 的 序列 化 格式 将 它 重 新 序列 化 。 





























@ 流 计 算 操作 生成 的 持久 化 RDD: 通过 流 计算 生成 的 RDD 可 能 会 被 持久 化 到 内 存 
中 。 例 如 ， 窗 口 操作 默认 会 将 数据 保留 在 内 存 中 ， 因 为 之 后 它们 可 能 会 被 多 次 处 理 。 

Spark Streaming 默认 将 接收 到 的 数据 序列 化 存储 ， 以 减少 内 存 的 使 用 。 序 列 化 和 反 
序列 化 需要 更 多 的 CPU 时 间 ， 而 高 效 的 序列 化 方式 (Kryo) 和 自 定义 的 序列 化 接口 ， 可 
高 效 地 使 用 CPU 。 

(4) 减 少 任务 提交 和 分 发 开销 。 

通常 情况 下 ，Akka 框架 能 够 高 效 地 确保 任务 及 时 分 发 ,但 当 批 次 间隔 非常 小 (如 
500ms) 时 ， 提 交 和 分 发 任务 的 延迟 就 变 得 不 可 接受 。 如 果 每 秒 启动 的 任务 数量 很 多 (如 大 
于 50 个 )， 那 么 向 Slave 节点 发 送 任务 的 开销 可 能 会 很 大 ， 并 且 将 难以 实现 亚 秒 级 的 延 
迟 。 可 以 通过 以 下 方式 减少 开销 。 

@ 任务 序列 化 : 使 用 Kryo 序列 化 ， 可 以 减 小 任务 的 大 小 ， 从 而 减少 了 发 送 到 节点 的 
时 间 。 

@ 执行 模式 : 在 独立 模式 或 者 粗 粒度 模式 下 运行 Spark， 比 细 粒 度 模式 有 更 低 的 

延迟 。 

2. 设置 合适 的 批 次 大 小 

为 了 使 集群 上 的 Spark Streaming 应 用 程序 能 够 稳定 运行 ， 系 统 处 理 数据 的 速度 应 该 
不 小 于 数据 接收 的 速度 。 换 句 话说 ,每 个 批 次 的 处 理 速度 应 该 像 每 个 批 次 的 生成 一 样 1 
速 。 通 过 监视 Streaming 用 户 界面 中 显示 的 批 次 处 理 时 间 ， 可 以 检查 批 处 理 时 间 是 否 小 
批 处 理 间隔 。 

根据 Streaming 流 处 理 的 性 质 ; 在 一 组 固定 的 集群 资源 上 ， 所 使 用 的 批 处 理 间 隔 会 对 
应 用 程序 所 能 维持 的 数据 处 理 速率 有 很 大 的 影响 。 例 如 ， 对 于 特定 数据 速率 ， 系 统 能 够 
每 2s 跟踪 报告 单词 计数 ( 即 2s 的 批 处 理 间 隔 ), 但 不 能 每 500ms 报告 一 次 。 因 此 ， 需 要 谨 
慎 地 设置 批 处 理 间 隔 。- 以 确保 生产 系统 可 以 维持 预期 的 数据 处 理 速 率 。 

关于 如 何 找到 合适 的 批 处 理 间 隔 的 问题 ， 可 以 通过 以 下 步骤 来 解决 :首先 以 保守 的 
批 处 理 间隔 (如 5 一 10s) 和 低 数据 速率 进行 测试 。 要 验证 系统 是 否 能 够 跟 上 数据 速率 ， 可 
以 检查 每 个 处 理 批 次 遇 到 的 端 对 端的 延迟 或 查找 Spark 驱动 程序 Log4j 日 志 中 的 “总 延 
迟 ”"， 或 是 用 StreamingListener 接口 。 如 果 延 迟 一 直 与 批 处 理 间隔 大 小 相当 ,那么 系统 是 
稳定 的 。 和 否则 ， 如 果 延 迟 持续 增加 ， 则 意味 着 系统 数据 处 理 速度 跟 不 上 数据 接收 速率 ， 
此 时 系统 是 不 稳定 的 。 一 旦 系统 稳定 下 来 ,可 以 尝试 逐步 增加 数据 接收 速率 或 减少 每 批 
数据 的 大 小 。 需 要 注意 的 是 ， 由 于 数据 速率 增加 而 导致 的 短暂 的 延迟 增长 可 能 是 正常 情 
况 ， 只 要 延迟 能 够 降 回 一 个 低 值 即 可 ， 即 小 于 批量 大 小 。 

3. 优化 内 存 使 用 

针对 Spark 应 用 程序 内 存 使 用 和 GC 行为 , 本 节 侧 重 讲解 如 何在 自 定 义 Spark 
Streaming 应 用 程序 调 优 参数 ， 优 化 内 存 的 使 用 。 

(1) 合 理 设置 DStream 存储 级 别 。 

默认 Streaming 的 输入 RDD 会 被 持久 化 成 序列 化 的 字 节 流 。 相 比 于 非 序列 化 数据 ， 
这 样 可 以 减少 内 存 占 用 和 GC 开销 。 启 用 Kryo 序列 化 ， 还 可 以 进一步 减少 序列 化 后 的 数 
据 大 小 和 内 存 占用 量 。 如 果 需 要 进一步 减少 内 存 占用 ， 可 以 开启 数据 压缩 ， 但 随 之 而 来 
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的 是 额外 的 CPU 开销 。 

(2) 及 时 清理 持久 化 的 RDD。 

默认 情况 下 ， 所 有 的 输入 数据 以 及 DStream 的 Transformation 算 子 产生 的 持久 化 
RDD 都 会 被 自动 清理 。SparkStreaming 会 根据 所 使 用 的 Transformation 操作 来 清理 旧 数 
据 。 例 如 ， 用 户 正 在 使 用 长 度 为 10min 的 窗口 操作 ,那么 SparkStreaming 会 保留 至 少 
10min 的 数据 ， 并 且 会 主动 把 更 早 的 数据 都 删 掉 。 用 户 可 以 通过 设置 spark. cleaner. ttl 的 
值 ， 实 现 自动 定期 清除 旧 的 内 容 ， 也 可 以 设置 spark. streaming. unpersist 属性 启动 内 存 清 
理 , 减少 Spark RDD 内 存 的 使 用 ,提升 GC 性 能 。 

(3) 并 发 垃圾 收集 策略 。 

由 于 GC 会 影响 任务 的 正常 运行 ， 而 任务 执行 时 间 的 延长 会 引起 一 系列 不 可 预料 的 问 
题 。 因 此 ， 采 用 不 同 的 GC 策略 可 以 进一步 减少 GC 对 作业 运行 的 影响 。 例 如 ， 使 用 并 行 
Mark-and- Sweep GC 能 减少 GC 的 突然 暂停 情况 ， 此 外 也 可 以 以 降低 系统 的 吞吐 量 为 代 
价 来 获得 最 短 GC 停顿 。 




















6.3 Spark 的 企业 级 应 用 


随 着 企业 数据 量 的 增长 ， 对 大 数据 的 处 理 和 分 析 已 经 成 为 企业 的 迫切 需求 。 作 为 
Hadoop 的 改进 框架 ，Spark 已 经 引起 学 术 界 和 工业 界 的 普遍 关注 ,大 量 应 用 已 经 在 工业 
界 落地 ， 许 多 科研 院 校 也 开始 了 对 Spark 的 研究 。 

在 学 术 界 ，Spark 得 到 各 院 校 的 关注 。Spark 源 自 学 术 界 ， 最 初 是 由 美国 加 州 大 学 伯 
克利 分 校 的 AMPLab 设计 开发 的 。 国 内 的 中 国 科学 院 ` 中国 人民 大 学 、 南 京 大 学 和 华东 
师范 大 学 等 也 开始 对 Spark 展开 相关 研究 ， 涉及 Benchmark、SQL、 并 行 算法 、 性 能 优化 
和 高 可 用 性 等 多 个 方面 。 

回 'w 回 在 工业 界 ，Spark 已 经 在 互联 网 领域 得 到 广泛 应 用 。 互 联网 用 户 群 体 庞 
大 ,需要 存储 大 量 数据 并 对 其 进行 分 析 ，Spark 能 够 支持 多 范式 的 数据 分 
oi 5 析 ， 解 决 了 大 数据 分 析 中 迫在眉睫 的 问题 。 例 如 ， 国 外 的 Cloudera、MapR 
【深入 掌握 等 大 数据 厂商 全 面 支持 Spark， 微 策略 等 老牌 厂商 也 和 Databricks 达成 合作 
图 计算 亿 战 的 关系 ， 雅 虎 使 用 Spark 进行 日 志 分 析 并 积极 回馈 社区 ,亚马逊 在 云端 使 用 
Spark GraphX Spark 进行 分 析 。 在 国内 Spark 同样 得 到 很 多 公司 的 青睐 ,如 淘宝 构建 
原理 和 实战 】 Spark on Yarn 进行 用 户 交易 数据 分 析 ， 使 用 GraphX 进行 图 谱 分 析 ; 网 易 
使 用 Spark 和 Shark 对 海量 数据 进行 处 理 和 查询 ;腾讯 使 用 Spark 进行 精准 广告 推荐 。 

下 面 将 选取 具有 代表 性 的 Spark 应 用 案例 进行 分 析 ， 以 便于 读者 了 解 Spark 在 企业 中 

的 应 用 情况 。 


Spark 在 亚马逊 中 的 应 用 


AWS(Amazon Web Services， 亚马逊 云 计算 服务 ) 提 供 IaaS 和 PaaS 服务 。Heroku 、 
Netflix 等 众多 知名 公司 都 将 自己 的 服务 托管 其 上 。AWS 以 Web 服务 的 形式 向 企业 提供 
IT 基础 设施 服务 ， 现 在 通常 称 为 云 计算 。 云 计算 的 主要 优势 是 能 够 根据 业务 发 展 扩展 的 
较 低 可 变 成 本 替代 前 期 资本 基础 设施 费用 。 利 用 云 服 务 ， 企 业 无 须 提前 数 周 或 数 月 来 计 
































划 和 采购 服务 器 及 其 他 IT 基础 设施 ， 可 在 几 分 钟 内 即时 运行 成 百 上 千 台 服务 器 ， 并 更 快 
1. 亚马逊 云 计 算 服务 AWS 的 内 容 


目前 亚马逊 在 EMR(Elastic MapReduce， 弹 性 映射 化 简 ) 中 提供 了 弹性 Spark 服务 ， 
用 户 可 以 按 需 动态 分 配 Spark 集群 计算 节点 ， 随 着 数据 规模 的 增长 ， 扩 展 自己 的 Spark 数 
据 分 析 集 群 ， 同 时 在 云端 的 Spark 集群 可 以 无 颖 集成 亚马逊 云端 的 其 他 组 件 ， 从 而 构建 数 
据 分 析 流 水 线 。 

AWS 包括 亚马逊 弹性 计算 云 (Amazon EC2) 、 亚 马 逊 简单 存储 服务 (Amazon S3)、 亚 
马 逊 弹性 MapReduce(Amazon EMR )、 亚 马 逊 简单 数据 库 (Amazon SimpleDB)、 亚 马 逊 
简单 队列 服务 (Amazon Simple Queue Service) 、Amazon DynamoDB 以 及 Amazon Cloud- 
Front 等 。AWS 的 架构 如 图 6.7 所 示 。 























图 6.7 AWS 的 架构 


从 图 6.7 可 以 看 出 ，AWS 包括 以 下 7 个 部 分 。 

(1)AWS Global Infrastructure(AWS 全 局 基础 设施 ) 。 

在 AWS Global Infrastructure 中 有 3 个 很 重要 的 概念 。 

@ Region( 区 域 )， 每 个 Region 是 相互 独立 的 ， 自 成 一 套 云 服务 体系 ,分布 在 全 球 
各 地 。 

@ Availability Zone( 可 用 区 )， 每 个 Region 由 数 个 Availability Zone 组 成 ， 每 个 
Availability Zone 可 以 看 成 是 一 个 数据 中 心 ， 相 互 之 间 通 过 光纤 连接 。 

回 Edge Locations (边缘 节点 ). 全 球 的 Edge Locations 构成 了 一 个 CDN (Content 
Delivery Network， 内 容 分 发 网 络 )， 可 以 降低 内 容 分 发 的 延迟 ， 保 证 终端 用 户 获 取 资 源 
的 速度 。 它 是 实现 全 局 DNS 基础 设施 (Route53) 和 CloudFront CDN 的 基石 。 

(2)Networking( 网 络 ) 。 

AWS 提供 的 网 络 服务 主要 有 以 下 4 个 。 

@ Direct Connect: 支持 企业 自身 的 数据 中 心 与 AWS 的 数据 中 心 直 连 ， 充 分 利用 企 
业 现 有 的 资源 。 











@ VPN Connection: 通过 VPN 连接 AWS， 保证 数据 的 安全 性 。 








加 Virtual Private Cloud( 私 有 云 ): 从 AWS 云 资 源 中 分 一 块 给 用 户 使 用 ， 进 一 步 提 
高 安全 性 。 

四 Route 53: 亚马逊 提供 的 高 可 用 、 可 伸缩 的 域名 解析 系统 。 

(3)Compute( 计 算 )。 


该 部 分 为 亚马逊 的 计算 核心 ， 包括 众 多 服务 。 

Q@ EC2: Elastic Computer Service， 亚马逊 的 虚拟 机 ， 支 持 Windows 和 Linux 的 多 
个 版 本 ,支持 API 创建 和 销毁 ， 有 多 种 型 号 可 供 选择 ， 按 需 使 用 。 并 且 有 Auto Scaling 
功能 ， 可 有 效 解决 应 用 程序 性 能 问题 。 

@ ELB: Elastic Load Balancing， 亚 马 逊 提供 的 负载 均衡 器 ， 可 以 和 EC2 无 颖 配合 
使 用 ， 横 跨 多 个 可 用 区 ， 可 以 自动 检查 实例 的 健康 状况 ， 自 动 剔 除 有 问题 的 实例 ， 保 证 
应 用 程序 的 高 可 用 性 。 
(4)Storage( 存 储 ) 。 
亚马逊 提供 的 存储 服务 包括 以 下 几 种 类 型 。 
加 S3: Simple Storage Service， 简 单 存储 服务 ， 是 亚马逊 对 外 提供 的 对 象 存储 服务 。 
不 限 容量 ， 单 个 对 象 大 小 可 达 5TB， 支 持 静态 网 站 。 

@ EBS(Elastic Block Storage， 块 级 存储 服务 ): 支持 普通 硬盘 和 SSD(Solid State 
Disk， 固 态 盘 )， 加 载 方便 快速 ， 数 据 备份 简单 。 

@ Glacier: 主要 用 于 使 用 较 少 的 存储 存档 文件 和 备份 文件 ， 价 格 便宜 且 安 全 性 高 。 

(5)Database( 数 据 库 ) 。 

亚马逊 提供 关系 型 数据 库 和 NoSQL 据 库 以 及 一 些 高 速 缓存 等 数据 库 服务 。 

DynamoDB: DynamoDB 是 亚马逊 自主 研发 的 NoSQL 数据 库 ， 人 性 能 高 且 容 错 性 
强 ， 支 持 分 布 式 ， 并 且 能 与 Cloud Watch、EMR 等 其 他 云 服务 高 度 集成 。 

@ RDS (Relational Database Service,， 关 系 型 数据 库 服务 ):， 支持 MySQL、SQL 
Server 和 Oracle 等 数据 库 ， 具 有 自动 备份 功能 ，IO 吞吐 量 可 按 需 调整 。 

@ Amazon ElastiCache: 数据 库 缓存 服务 。 

(6)Application Service( 应 用 程序 服务 ) 。 

亚马逊 提供 的 应 用 程序 服务 主要 有 以 下 几 种 。 

Q@ Cloud Search: 弹性 的 搜索 引擎 ， 可 用 于 企业 级 搜索 。 

加 Amazon SQS(Simple Queue Service) : 简单 队列 服务 ， 存 储 和 分 发 消息 。 

@ Simple Workflow: 是 一 种 工作 流 框架 。 

@@ CloudFront: 世界 范围 的 内 容 分 发 网 络 。 

加 EMR: Hadoop 框架 的 实例 ,可 用 于 大 数据 处 理 。 

(7)Deployment and Administration( 部 署 和 管理 ) 。 
亚马逊 的 部 署 和 管理 包括 以 下 几 项 。 

@ Elastic BeanStalk: 一 键 式 创 建 和 运行 各 种 开发 环境 。 

@ CloudFormation: 采用 Jason 格式 的 模板 文件 创建 和 管理 一 系列 亚马逊 云 资 源 。 

@ OpsWorks: 人 允许 用 户 将 应 用 程序 的 部 署 模块 化 ， 可 以 实现 对 数据 库 、 和 运行 环境 、 
服务 器 软件 等 自动 化 设置 和 安装 。 
























































@ IAM(Identity and Access Management， 存 取 管 理 ) : 用 户 使 用 云 服 务 最 担心 的 事 
情 之 一 就 是 安全 问题 。 亚 马 逊 通过 IAM 提供 了 立体 化 的 安全 策略 ， 保 证 用 户 在 云 上 资源 
绝对 安全 。 用 户 通过 IAM 可 以 管理 对 AWS 资源 的 访问 。 通 过 IAM 可 以 创建 Group 和 
Role 来 授权 或 禁止 对 各 种 云 资源 的 访问 。 

基于 以 上 组 成 部 分 ， 亚马逊 提供 了 在 EMR 上 的 弹性 Spark 服务 。 用 户 可 以 像 之 前 使 
用 EMR 一 样 在 亚马逊 动态 申请 计算 节点 ,可 随 着 数据 量 和 计算 需求 来 动态 扩展 计算 资 
源 ， 将 计算 能 力 水 平 扩展 ， 按 需 进行 大 数据 分 析 。 亚 马 逊 提供 的 云 服务 中 已 经 支持 使 用 
Spark 集群 进行 大 数据 分 析 。 数 据 可 以 存储 在 Amazon S3 或 者 Hadoop 存储 层 ， 通过 
Spark 将 数据 加 载 进 计算 集群 ， 从 而 进行 复杂 的 数据 分 析 。 

2. Amazon EMR 中 提供 的 主要 组 件 


AmazonEMR 中 提供 的 主要 组 件 有 MasterNode、CoreNode 和 .TaskNode。 

(1)MasterNode: 主 节 点 ， 负 责 整 体 的 集群 调度 与 元 数据 存储 。 

(2)CoreNode: Hadoop 节点 ,负责 数据 的 持久 化 存储 ,可 以 动态 扩展 资源 ， 如 更 多 
的 CPU Core ( 核 );、 更 大 的 内 存 和 HDFS 存储 空间 。 为 了 防止 HDFS 的 损坏 ， 最 好 不 要 
移 除 CoreNode。 

(3)TaskNode: Spark 计算 节点 ， 负 责 执行 数据 分 析 任 务 ， 不 提供 HDFS， 只 提供 计 
算 资 源 ( 如 CPU 和 内 存 )， 可 以 动态 扩展 资源 ， 也 可 以 增加 和 移 除 TaskNode。 

3，Spark on Amazon EMR 的 架 狗 


图 6.8 为 Spark on Amazon EMR 的 架构 ， 下 面 以 图 6. 8 为 例 分 析 用 户 如 何在 某 个 应 
用 场景 中 使 用 服务 。 





























Amazon S3 


图 6.8 Spark on Amazon EMR 的 架构 


首先 构建 集群 ,创建 一 个 MasterNode 作为 集群 的 主 节点 ， 之 后 创建 两 个 CoreNode 
存储 数据 ， 两 个 CoreNode 总 共有 32GB 的 内 存 。 但 这 些 内 存 是 不 足以 令 Spark 进行 内 存 
计算 的 ， 因 此 需要 动态 申请 TaskNode( 如 图 6. 8 中 的 256GB 内 存 作为 计算 节点 ) ， 从 而 进 























行 Spark 的 数据 处 理 和 分 析 。 

当 用 户 开 始 处 理 数据 时 ，Spark RDD 的 输入 既 可 以 来 自 CoreNode 中 的 HDFS， 也 可 以 
来 自 Amazon S3， 还 可 以 通过 输入 数据 创建 RDD。 用 户 在 RDD 上 可 以 进行 各 种 计算 范式 的 
数据 分 析 ， 最 终 的 分 析 结 果 可 以 输出 到 CoreNode 的 HDFS 中 , 或 者 输出 到 Amazon S3 中 。 

4. 使 用 Spark on Amazon EMR 的 优势 

使 用 Spark on Amazon EMR 的 主要 优势 有 以 下 几 个 方面 。 

51) 构建 速度 快 : 可 以 在 几 分 钟 内 构建 小 规模 甚至 大 规模 Spark 集群 ， 以 进行 数据 分 析 。 

(2) 运 维 成 本 低 : EMR 负责 整个 集群 的 管理 与 控制 ， 也 负责 失效 节点 的 恢复 。 

(3) 云 生态 系统 数据 处 理 组 件 丰 富 : Spark 集群 可 以 很 好 地 与 Amazon 云 服务 上 的 其 
他 组 件 无 颖 集成 ， 利 用 其 他 组 件 构建 数据 分 析 管 道 。 例 如 ，Spark 可 以 和 EC2 Spot Mar- 
ket、Amazon Redshift、Amazon Data Pipeline、Amazon CloudWatch 等 组 合 使 用 。 

(4) 方 便 调 试 : Spark 集群 的 日 志 可 以 直接 存储 到 Amazon S3 中 ,方便 用 户 进行 日 志 分 析 。 

综合 以 上 优势 ， 用户 可 以 真正 按 需 弹性 使 用 与 分 配 计算 资源 ， 实 现 节省 计算 成 本 、 
减轻 运 维 压力 的 目的 ， 在 几 分 钟 内 构建 自己 的 大 数据 处 理 和 分 析 平 台 。 


Spark 在 淘宝 中 的 应 用 


数据 挖掘 算法 有 时 候 需 要 迭代 ,每 次 迭代 时 间 非 常 长 ， 这 是 淘宝 选择 一 个 更 高 性 能 
计算 框架 Spark 的 原因 (Spark 编程 范式 更 加 简洁 也 是 一 大 原因 )。 另 外 ，GraphX 提供 图 
计算 的 能 力也 是 很 重要 的 。 

1. Spark on YARN 的 架构 

Spark 的 计算 调度 方式 从 Mesos 到 Standalone; 即 自 建 Spark 计算 集群 。 虽 然 Stan- 
dalone 方式 性 能 与 稳定 性 都 得 到 了 提升 ,但 自 建 集群 资源 少 ， 需 要 从 云梯 复制 数据 ， 
不 能 满足 数据 挖掘 与 计算 团队 的 业务 需求 。 而 . Spark on YARN 能 让 Spark 计算 模型 在 云 
梯 YARN 集群 上 运行 ， 直 接 读 取 云 梯 上 的 数据 ,并 充分 享受 云梯 YARN 集群 丰富 的 计算 
资源 。 图 6. 9 为 Spark on YARN 的 架构 。 
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图 6.9 Spark on YARN 的 架构 











Spark on YARN 架构 解析 如 下 。 

基于 YARN 的 Spark 作业 首先 由 客户 端 生成 作业 信息 ， 提 交 给 Resource Manager。 
Resource Manager 在 Node Manager 汇 报时 把 App Master 分 配给 Node Manager，Node 
Manager 启动 Spark App Master，Spark App Master 启动 后 初始 化 作业 ， 并 获取 节点 状 
态 ， 然 后 向 Resource Manager 申请 资源 。 申 请 到 相应 资源 后 ，Spark App Master 通过 
RPC 让 Node Manager 启动 相应 的 Spark Executor，Spark Executor 向 Spark App Master 
汇报 并 完成 相应 的 任务 。 此 外 ，Spark Client 会 通过 App Master 获取 作业 运行 状态 。 

目前 ， 淘 宝 的 数据 挖掘 与 计算 团队 通过 Spark on YARN 已 实现 MLR、PageRank 和 
JMeans 算法 ， 其 中 MLR 已 作为 生产 作业 运行 。 

2. 协作 系统 


除了 Spark on YARN 框架 外 ， 淘 宝 还 应 用 了 以 下 的 工具 。 

(1) Spark Streaming: 淘宝 在 云梯 构建 基于 Spark Streaming 的 实时 流 处 理 框 架 。 
Spark Streaming 适合 处 理 历 史 数 据 和 实时 数据 混合 的 应 用 需求 ， 能 够 显著 提高 流 数 据 处 
理 的 吞吐 量 。 其 对 交易 数据 、 用 户 浏览 数据 等 流 数据 进行 处 理 和 分 析 ， 能够 更 加 精准 、 
快速 地 发 现 问题 并 进行 预测 。 

(2)GraphX: 淘宝 将 交易 记录 中 的 物品 和 顾客 组 成 大 规模 图 ， 然 后 使 用 GraphX 对 该 
图 进行 处 理 和 分 析 。GraphX 能 够 和 现 有 的 Spark 平台 无 缝 集成 ， 从 而 减少 多 平台 的 开发 
代价 。 


在 Spark 技术 的 研究 与 应 用 方面 ， 雅 虎 始终 处 于 领先 地 位 ， 它 将 Spark 应 用 于 公司 的 
各 种 产品 之 中 。 移 动 App、 网 站 、 广 告 服务 、 图 片 服务 等 服务 的 后 端 实时 处 理 框架 均 采 
用 了 Spark 十 Shark 的 架构 。 目 前 ,雅虎 拥有 超过 千 万 个 页 面 ， 有 上 百 万 个 商品 类 别 、 上 
千 个 商品 和 用 户 特征 及 超过 百 万 个 用 户 。 此 外 它 每 天 还 需要 处 理 海量 数据 。 

雅虎 的 大 数据 分 析 栈 如 图 6. 10 所 示 , 可 以 看 出 雅虎 使 用 Spark 进行 数据 分 析 的 整体 架构 。 
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图 6.10 雅虎 的 大 数据 分 析 栈 









雅虎 的 大 数据 分 析 平 台 架 构 解 析 如 下 。 

整个 数据 分 析 栈 构建 在 YARN 上 ,这 是 为 了 让 Hadoop 和 Spark 的 任务 共存 ， 它 主 
要 包含 以 下 两 个 模块 。 

(1) 离 线 处 理 模块 : 使 用 MapReduce 和 Spark 十 Shark 混合 架构 。 由 于 MapReduce 适 
合 进 行 ETL 处 理 ， 还 保留 了 Hadoop 进行 数据 清洗 和 转换 ， 因 此 数据 在 ETL 之 后 加 载 进 
HDFS/HCat/ Hive 数据 仓库 存储 ， 之 后 可 以 通过 Spark、Shark 进行 OLAP 数据 分 析 。 

(2) 实 时 处 理 模块 : 使 用 Spark Streaming 十 Spark 十 Shark 架构 进行 处 理 。 实 时 流 数 
据 源 源 不 断 经 过 Spark Steaming 初步 处 理 和 分 析 之 后 ， 将 数据 追加 进 关系 数据 库 或 者 
NoSQL 数据 库 。 之 后 结合 历史 数据 ， 使 用 Spark 进行 实时 数据 分 析 。 

之 所 以 选择 Spark， 雅虎 主 要 是 基于 以 下 几 点 进行 考虑 的 。 

(1) 进 行 交互 式 SQL 分 析 的 应 用 需求 。 

(2)RAM 和 SSD 价格 不 断 下 降 ， 数 据 分 析 实 时 性 的 需求 越 来 越 多 ， 大 数据 急需 一 个 
内 存 计 算 框架 进行 处 理 。 

(3) 程 序 员 熟悉 Scala 开发 ， 学 习 Spark 容易 上 手 。 

(4)Spark 的 社区 活跃 度 高 ， 开 源 系 统 的 Bug 能 够 更 快 得 到 解决 。 

(5) 传 统 Hadoop 生态 系统 的 分 析 组 件 在 进行 复杂 数据 分 析 和 保证 实时 性 方面 表现 得 
力不从心 。Spark 的 全 栈 支 持 多 范式 数据 分 析 能 够 应 对 多 种 多 样 的 数据 分 析 需 求 。 

(6) 可 以 无 颖 地 将 Spark 集成 进 现 有 的 Hadoop 处 理 架 构 。 


本 章 小 结 


本 章 主要 介绍 了 Spark 的 概念 、 特 点 和 安装 方法 ， 分 析 了 Spark 的 流 数 据 处 理 模型 ， 
并 冰 述 了 Spark 在 企业 中 的 应 用 。Spark 通过 引入 -RDD 的 概念 ， 实 现 了 用 一 致 的 方式 处 
理 不 同 应 用 场景 下 的 大 数据 。Spark Streaining 作为 一 种 构建 在 Spark 上 的 实时 计算 框架 ， 
扩展 了 Spark 处 理 大 规模 流 数 据 的 能 力 。 基 于 Spark 的 应 用 已 经 逐步 落地 ， 尤 其 是 在 互联 
网 领域 ， 如 淘宝 、 亚 马 进 和 雅虎 等 公司 的 发 展 已 经 成 熟 。 总 之 ，Spark 凭借 着 其 可 伸缩 、 
基于 内 存 计算 等 特点 以 及 能 够 直接 读 写 Hadoop 上 所 有 格式 数据 的 优势 ， 得 到 了 学 术 界 和 
工业 界 的 重视 。 


ss 
鲁 关键 术语 
3. 














(1)RDD (2)BDAS (3)Master-Slave 模型 (4) 窜 依赖 
(5) 宽 依赖 (6)DStream (7)Input DStream (8) 批 处 理 间隔 
习 题 
1. 选择 题 
(1)RDD 的 基本 特征 不 包括 ( 。 )。 
A. 优先 位 置 B. 依赖 C. 函数 D. 分 区 











(2) 以 下 不 属于 窄 依赖 的 是 ( )。 





A. Map B. Filter 

C. Union D. GroupbyKey 
(3)( ) 能 够 提供 图 形 处 理 服务 。 

A. Spark SQL B. MLlib 

C. Spark Streaming D. GraphX 
(4)( ) 为 整个 集群 的 控制 器 ， 负 责 整 个 集群 的 正常 运行 。 

A. Worker B. Master 

C. Executor D. Driver 
(5)Spark 的 处 理 流程 为 )。 

A. 闭环 图 B. 无 向 图 

C. 有 向 无 环 图 D. 以 上 都 不 是 
(6)DStream 可 以 从 ( ) 的 输入 数据 流 进行 创建 。 

A. Kafka B. Flume 

C. Kinesis D. 以 上 都 可 以 
2. 判断 题 六 


(1) 窗 依赖 是 指 子 RDD 的 每 个 分 区 都 依 束 于 所 有 父 RDD 的 所 有 分 区 或 多 个 分 区 。 


(2)RDD 是 一 个 只 读 的 但 不 可 分 区 的 分 布 式 数据 集 。 _ 

(3) 滑 动 间隔 和 窗口 间隔 的 设置 可 以 不 是 批 处 理 间 阳 的 整数 倍 。 
(4) 在 Spark Streaming 中 处 理 数据 的 单位 是 一 批 而 不 是 单条 。 
(5)Spark 对 RDD 的 操作 分 为 Transformation 和 .Action 。 
(6)Spark Streaming 默认 将 接收 到 的 数据 进行 反 序列 化 存储 。 
3. 简 答 题 “> x 

(1) 简 述 /Spark 的 特点 。 

(2)Spark Streaming 的 性 能 调 优 方法 有 哪些 ? 

(3) 简 述 伯克利 数据 分 析 栈 。 

(4)DStream 与 RDD 的 关系 是 什么 ? 

(5) 简 述 构建 Spark Streaming 应 用 程序 的 步骤 。 

(6)Spark Streaming 的 工作 原理 是 什么 ? 
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知识 要 点 掌握 程度 相关 知识 

Storm 的 概念 熟悉 Storm 的 定义 、 核 心 组 件 

Storm 的 特点 掌握 Storm 的 主要 特点 

Storm 的 部 署 掌握 Storm 的 部 署 环 境 及 步骤 
Storm 的 系统 架构 掌握 Storm 的 集群 架构 形式 、 架 构 步 又 
Storm 的 通信 机 制 熟悉 Worker 进程 间 的 通信 、Worker 内 部 通信 
Storm 的 编程 模型 熟悉 Stream Grouping 的 方式 

Storm 的 应 用 了 解 Storm 在 携程 网 和 在 线 学 习 平台 中 的 应 用 


流 式 数据 (Data Stream， 又 称 数据 流 ) 是 大 数据 环境 下 的 一 种 数据 形态 ， 其 理论 始 于 
20 世纪 末 ， 并 在 云 计算 和 物 联 网 发 展 下 逐步 成 为 当前 的 研究 热点 。 与 静态 、 批 处 理 和 持 
久 化 的 数据 库 相 比 ， 流 式 计算 以 连续 、 无 边界 和 瞬时 性 为 特征 ,适合 高 速 并 发 和 大 规模 
数据 实时 处 理 的 场景 。 当 前 大 数据 环境 下 的 许多 应 用 呈现 多 源 并 发 、 数 据 汇聚 、 在 线 处 
理 的 特征 ， 所 以 实时 数据 处 理 的 相关 研究 迅速 发 展 ， 并 在 许多 领域 (如 金融 、 医 疗 、 交 通 
和 军事 ) 得 到 了 广泛 应 用 。 








7.1 Storm 简介 


Twitter 公司 将 微 博 的 潮流 引入 这 个 时 代 ， 成 为 当今 互联 网 界 的 标杆 之 一 。 随 着 微 博 
的 流行 和 IT 服务 的 全 球 化 ， 数 据 量 不 断 地 飞速 增长 ， 应 对 规模 如 此 庞大 和 高 速 增长 的 数 
据 量 ，Twitter 公司 在 检索 、 处 理 和 存储 技术 上 面临 极 大 的 挑战 。Hadoop MapReduce 是 
当前 离线 大 数据 分 析 的 标准 ， 对 许多 海量 数据 处 理应 用 发 挥 了 极其 重要 的 作用 ， 如 进行 
互联 网 全 网 内 容 索 引 等 。 但 是 它 的 批 处 理 计算 模型 取决 于 其 架构 模型 ，Twitter 这 样 高 度 
动态 的 实时 数据 存在 响应 时 间 和 及 时 性 方面 的 诸多 限制 。2011 年 7 月 ，Twitter 收购 了 一 
家 专注 于 社交 媒体 数据 分 析 的 公司 BackType。 两 个 月 后 ， 即 2011 年 9 月 17 日 ，Twitter 
以 开源 的 形式 发 布 了 Storm 的 第 一 个 版 本 。 

















YA Storm 的 概述 


Storm 是 分 布 式 流 式 数 据 处 理 系 统 ， 其 强大 的 分 布 式 集群 管理 、 便 捷 的 针 回国 
对 流 式 数 据 的 编程 模型 、 高 容错 非 功 能 保障 ,使 它 成 为 业界 流 数据 处 理 的 首 








选 。 原 因 主要 有 以 下 几 个 。 四 让 
(1)Storm 为 大 规模 的 集群 配置 管理 提供 了 高 效 的 管理 方式 ， 用 户 通过 【 交 
简单 的 配置 便 可 实现 之 前 庞杂 的 管理 步 又 。 Storm 概述 


(2)Storm 为 复杂 的 流 计 算 模型 提供 了 丰富 的 服务 和 编程 接口 ， 降 低 了 的 背景 
学 习 和 开发 的 门槛 ， 在 性 能 和 功能 方面 均 弥补 了 Hadoop 批 处 理 所 不 能 满足 的 实时 需求 。 

(3)Storm 提供 的 可 靠 性 保障 ， 不仅 提 供 了 对 分 布 式 的 组 件 级 的 容错 ,而且 提供 了 不 
丢失 数据 的 记录 及 容错 保证 。 

在 Storm 之 前 ， 进 行 实时 处 理 是 件 非 常 困难 的 事情 ， 因 为 需要 维护 一 堆 消息 队列 和 
消费 者 ， 它 们 构成 了 非常 复杂 的 图 结构 。 消 费 者 进程 从 队列 里 获取 消息 ， 处 理 完 成 后 ， 
去 更 新 数据 库 或 者 向 其 他 队列 发 送 新 消息 ， 这 样 进行 实时 处 理 非 常 痛苦 。 其 关注 点 就 是 
向 哪里 发 送 消息 、 从 哪里 接收 消息 、 消 息 如 何 序列 化 等 ， 这 将 浪费 很 多 时 间 ， 而 真正 的 














业务 逻辑 只 占 了 源 代 码 很 小 的 部 分 。 一 个 应 用 程序 的 逻辑 和 运行 在 很 多 Worker( 任 务工 作 进 
程 ) 上 ， 但 这 些 Worker 需要 各 自 单独 部 署 ， 还 需要 部 署 消息 队列 。 然 而 问题 是 系统 很 脆 





弱 ， 而 且 不 是 容错 的 ， 需 要 自己 保证 消息 队列 和 Worker 进程 工作 正常 。 

Storm 完整 地 解决 了 上 述 问 题 , 它 是 为 分 布 式 场景 而 生 的 。 它 抽象 了 消息 传递 ,会 自 
动 在 集群 机 器 上 并 发 地 处 理 流 式 计算 ， 让 用 户 专 注 于 实时 处 理 的 业务 逻辑 。 

在 Storm 中 有 一 些 基 本 的 核心 概念 ， 包括 Topology、Supervisor、Nimbus、Wor- 


ker、 Executor、 Task、 Bolt, Tuple、Stream、Spout、Stream Grouping 等 。 





1. Topology( 扰 扑 ) 

一 个 Storm 拓扑 包含 一 个 实时 处 理 程序 的 逻辑 。 一 个 Storm 拓扑 类 似 于 一 个 MapReduce 
的 任务 。 主 要 区 别 是 MapReduce 任务 最 终 会 结束 ,而 拓扑 会 一 直 运 行 (直到 它 被 杀 死 )。 一 
个 拓扑 是 一 个 通过 流 分 组 把 Spout 和 Bolt 连接 到 一 起 的 拓扑 结构 (如 图 7. 1 所 示 )。 








图 7.1 Topology 示意 图 








2. Tuple( 元 组 ) 


元 组 是 Storm 提供 的 一 个 轻 量 级 的 数据 格式 ， 可 以 用 来 包装 需要 实际 处 理 的 数据 。 





元 组 是 一 次 消息 传递 的 基本 单元 。 一 个 元 组 是 一 个 命名 的 值 列 表 ， 其 中 的 每 个 值 都 可 以 
是 任意 类 型 的 。 元 组 是 动态 地 进行 类 型 转化 的 ,字段 的 类 型 不 需要 事先 声明 。 在 Storm 
中 编程 时 ， 就 是 在 操作 和 转换 由 元 组 组 成 的 流 。 通 常 ， 元 组 包含 整数 、 字 节 、 字 符 串 、 
浮 点 数 、 布 尔 值 和 字 节 数组 等 类 型 。 如 果 想 在 元 组 中 使 用 自 定 义 类 型 ， 就 需要 实现 自己 
的 序列 化 方式 。 

3. Stream( 流 ) 


一 个 流 由 无 限 的 元 组 序列 组 成 ， 这 些 元 组 会 被 分 布 式 并 行 地 创建 和 处 理 。 通 过 流 中 
元 组 包含 的 字段 名 称 来 定义 流 。 每 个 流 声明 时 都 被 赋予 了 一 个 ID， 只 有 一 个 流 的 Spout 
和 Bolt 比较 常见 。 

4. Spout 


Spout 是 Storm 中 流 的 来 源 。 通 常 Spout 从 外 部 数据 源 ( 如 消息 队列 中 ) 读 取 元 组 数据 
并 吐 到 拓扑 里 ， 供 Bolt 消费 ，Spout 工作 示意 图 如 图 7.2 所 示 。Spout 可 靠 或 不 可 靠 均 
可 。 可 靠 的 Spout 能 够 在 一 个 元 组 被 Storm 处 理 失败 时 重新 进行 处 理 ， 而 不 可 靠 的 Spout 
只 是 吐 数据 到 拓扑 里 ， 不 关心 处 理 结 果 是 成 功 还 是 失败 。 




















图 7.2 Spout 工作 示意 图 


5, Bolt 


拓扑 中 所 有 的 计算 馆 辑 都 是 在 Bolt 中 实现 的 。 在 拓扑 中 接收 Spout 数据 ， 然 后 执行 
处 理 的 组 件 ，Bolt 工作 示意 图 如 图 7. 3 所 示 。 一 个 Bolt 可 以 处 理 任意 数量 的 输入 流 ， 产 生 
任意 数量 新 的 输出 流 。Bolt 可 以 进行 函数 处 理 、 过 滤 、 流 的 合并 和 存储 到 数据 库 等 操作 。 
Bolt 就 是 流水 线 上 的 一 个 处 理 单元 ， 把 数据 的 计算 处 理 过 程 合理 拆 分 到 多 个 Bolt 或 合理 设 
置 Bolt 的 任务 数量 ， 能 够 提高 Bolt 的 处 理 能 力 ， 提 升 流水 线 的 并 发 度 。 


6. Executor 


一 个 Executor 就 是 一 个 线程 ， 默 认 对 应 一 个 任务 ， 也 可 以 设置 成 对 应 多 个 任务 。 
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7. Task( 任 务 ) 

每 个 Spout 和 Bolt 会 以 多 个 任务 (Task) 的 形式 在 集群 凸 运行 ， 即 任务 为 每 个 Spout 
和 Bolt 具体 要 做 的 工作 。 每 个 任务 对 应 一 个 执行 线程 ，Stream Grouping 定义 了 如 何 从 一 
组 任务 (同一 个 Bolt) 发 送 元 组 到 另外 一 组 任务 (另外 一 个 Bolt) 上。 


图 7.3 Bolt 工作 示意 图 


8，Stream Grouping 

Stream Grouping 定义 了 一 个 流 在 一 个 消费 它 的 Bolt 内 的 多 个 任务 之 间 如 何 分 组 。 
Stream Grouping 与 计算 机 网 络 中 的 路 由 功能 是 类 似 的 ， 决 定 了 每 个 元 组 在 拓扑 中 的 处 理 
路 线 。 


Storm 逐步 成 为 当前 大 数据 环境 中 最 流行 的 流 式 处 理 系统 ， 主 要 由 于 其 具有 以 下 
特点 。 
1. 编程 简 举 
开发 人 员 只 需要 关注 应 用 逻辑 ， 类 似 于 Hadoop、Storm 提供 的 编程 原 语 也 很 简单 。 
Storm 提供 了 简单 易 用 的 API。 编 程 人 员 只 需要 转换 从 数据 源 获取 的 数据 为 自 定 义 的 元 
， 便 可 以 使 用 Storm 的 其 他 功能 进行 处 理 。 一 个 元 组 就 是 一 个 值 的 列表 ， 它 可 以 包含 
E 何 数据 类 型 。 当 使 用 自 定义 数据 类 型 时 ， 只 需要 简单 使 用 Storm 的 序列 化 器 注册 一 下 
可 。Storm 具有 简单 的 编程 概念 ， 主 要 的 编程 概念 有 Spout、Bolt 和 拓扑 。 
2. 可 扩展 性 
随 着 业务 发 展 ， 数 据 量 和 计算 量 越 来 越 大 ， 系 统 可 进行 水 平 扩展 。 拓 扑 具 有 并 行 性 ， 
[以 跨 机 器 甚至 集群 执行 。 拓 扑 中 各 种 不 同 的 组 件 (Spout 或 Bolt) 可 配置 为 各 种 不 同 的 并 
行 度 。 通 过 用 户 提交 的 负载 均衡 命令 ,拓扑 可 以 适应 变化 环境 的 集群 ， 自 动 调整 组 件 的 
E 务 在 各 个 机 器 间 的 分 布 式 布局 。 
3. 容错 能 力 
Storm 具有 适应 性 的 容错 能 力 ， 简 而 言 之 ， 就 是 单个 节点 死 掉 了 也 不 影响 其 应 用 
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体 来 说 ， 当 工作 进程 失败 时 ，Storm 会 自动 重启 这 些 进 程 ， 当 一 个 节点 死 掉 时 ， 它 上 面 的 
所 有 进程 都 会 在 其 他 节点 重启 。 

4. 数据 处 理 过 程 中 的 保障 

Storm 保证 每 个 数据 项 都 能 够 完全 被 处 理 ， 高 效 地 追踪 到 拓扑 的 每 一 个 数据 项 的 处 理 
过 程 。 一 旦 处 理 失败 或 者 超时 ， 对 应 的 数据 项 将 通过 Spout 重新 获取 并 发 送 。Storm 通过 
事务 性 的 拓扑 提供 保证 一 个 数据 项 被 且 仅 被 处 理 一 次 的 能 力 ， 即 一 方面 在 恢复 后 存在 数 
据 重 发 ， 另 一 方面 保证 故障 前 已 经 被 处 理 的 数据 项 不 会 被 重复 处 理 。 

5. 可 使 用 多 种 编程 语言 开发 

虽然 Storm 主要 使 用 Clojure 语言 开发 ， 接 口 大 部 分 通过 Java 语言 开发 ，Storm 却 被 
设计 成 可 以 使 用 多 种 语言 进行 编程 的 方式 。 

6. 高 性 能 

Storm 内 部 通信 采用 ZeroMQ( 一 种 基于 消息 队列 的 多 线程 网 络 库 ) 通 信 ， 保 证 消息 被 
快速 处 理 。 














回 四 7. 易于 部 署 和 操作 

i Storm 的 集群 仅仅 需要 少量 的 配置 和 安装 工作 ， 方 便 部 署 和 启动 。 它 

记 “ 的 这 种 能 力 使 其 很 容易 被 产品 化 。 在 业务 计算 被 提交 后 ，Storm 仍 可 方便 
judo 区 二】 地 进行 修改 和 配置 的 操作 。 

8. 免费 开源 

Storm 是 免费 和 开源 的 项 目 , 在 Eclipse 公共 许可 证 (Eclipse Public License，EPL) 下 开放 使 
用 源码 。EPL 协议 是 一 个 开源 协议 ， 允 许 用 户 的 Storm 应 用 开源 。 
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Storm 既 支 持 在 Linux 系统 部 署 ， 也 支持 在 Windows 系统 部 署 。 以 在 Linux 系统 部 
署 为 例 ， 假 设 在 3 台 服 务 器 上 安装 Supervisor， 两 台 服务 器 上 安装 Nimbus， 简 要 介绍 部 
署 相 关 信息 及 流程 如 下 。 

1. 部 署 环 境 

Storm 集群 分 为 Nimbus 节点 和 Supervisor 节点 。 

(1)Nimbus( 主 控 节 点 ) 上 运行 Nimbus 进程 。Nimbus 负责 接收 Client 提交 的 Topolo- 
gy 并 分 发 代码 ， 分 配 任务 给 工作 节点 ， 监 控 集群 中 运行 任务 的 状态 等 工作 。Nimbus 作用 
类 似 于 Hadoop 中 的 JobTracker。 

(2)Supervisor( 工 作 节点 ， 从 节点 ) 上 运行 Supervisor 进程 。Supervisor 通过 获取 Zo- 
oKeeper 相关 数据 监听 Nimbus 分 配 过 来 的 任务 ， 据 此 启动 或 停止 Worker 工作 进程 。 每 
个 Worker 工作 进程 执行 一 个 拓扑 任务 的 子 集 ; 单个 拓扑 的 任务 由 分 布 在 多 个 工作 节点 上 
的 Worker 工作 进程 协同 处 理 。 

Nimbus 和 Supervisor 节点 之 间 的 协调 工作 通过 ZooKeeper 实现 。 此 外 ，Nimbus 和 
Supervisor 本 身 均 为 无 状态 进程 ， 支 持 快 速 失败 ; JStorm( 一 个 分 布 式 实时 计算 引擎 ) 集群 

















节点 的 状态 信息 或 存储 在 ZooKeeper 或 持久 化 到 本 地 ,这 意味 着 即使 Nimbus/Supervisor 
死机 ,重启 后 也 可 继续 工作 。 这 个 设计 使 得 JStorm 集群 具有 非常 好 的 稳定 性 。 

2. 准备 工作 

(1) 安 装 JDK1. 8。 

(2) 安 装 ZooKeeper3. 4.5。 

(3) 下 载 所 需 版 本 的 Storm 安装 包 。 

3. 安装 Storm 集群 

(1) 解 压缩 Storm 安装 包 。 

(2) 修 改 目 录 conf/Storm. yaml 文件 。 

(3) 将 配置 文件 复制 到 其 他 机 器 。 

4, 启动 Storm 集群 

(1) 在 Master 和 Master2 上 启动 Nimbus 进程 。 

(2) 在 Slave01、Slave02 和 Slave03 上 启动 Supervisor 进程 。 

(3) 在 Master 和 Master2 上 启动 drpc 进程 和 UI 界面 。 

(4) 用 浏览 器 访问 http://master: 8080, 查看 Storm 的 UI 界面 信息 。 


7.2 基于 Storm 的 流 式 数据 处 理 原理 


Storm 是 一 个 分 布 式 的 、 可 靠 的、 容错 的 数据 流 处 理 系 统 。Storm 针对 分 布 式 计算 节 
点 提供 了 功能 强大 、 使 用 便捷 、 监 控 直 观 的 集群 管理 接口 和 配置 方式 。 本 节 从 系统 架构 、 
通信 机 制 和 编程 模型 三 个 角度 对 Storm 进行 介绍 ， 以 便 对 Storm 进行 更 深入 的 了 解 ， 便 
于 在 实践 中 对 其 进行 合理 的 应 用 。Storm 作为 作业 数据 处 理 流程 的 起 点 ， 产 生 数据 流 并 可 
追踪 数据 项 的 状态 。 


Storm 的 系统 架构 


Storm 集群 采用 主 从 架构 的 形式 ， 主 节点 是 Nimbus， 从 节点 是 Supervisor， 有 关 调 
度 相 关 的 信息 存储 到 ZooKeeper 集群 中 。Storm 系统 架构 由 逻辑 独立 的 四 种 角色 构成 ， 只 
有 工作 节点 实际 执行 流 式 计 算 ，Storm 系统 架构 图 如 图 7.4 所 示 。 





















二 


图 7.4 Storm 系统 架构 图 











1. Nimbus 


Nimbus 是 Storm 集群 的 主 节点 ,是 Storm 系统 的 中 心 。 它 负责 分 发 用 户 代码 并 向 具 
体 的 Supervisor 节点 上 的 Worker 节点 分 配 Task， 进 而 使 Worker 节点 运行 拓扑 对 应 组 件 
(Spout/Bolt) 的 任务 。 


2. Supervisor 


Supervisor 是 Storm 集群 的 从 节点 ,负责 管理 运行 在 Supervisor 节点 上 的 每 一 个 
Worker 进程 的 启动 和 终止 。 通 过 Storm 配置 文件 中 的 Supervisor. slots. ports， 可 以 指定 
在 一 个 Supervisor 上 最 大 允许 多 少 个 Slot， 每 个 Slot 通过 端口 号 来 唯一 标识 ， 一 个 端口 
号 对 应 一 个 Worker 进程 (车 该 Worker 进程 被 启动 )。Supervisor 是 分 布 式 部 署 的 ， 在 
Storm 中 的 地 位 类 似 于 Hadoop 中 的 TaskTracker。 

3. Worker 

Worker 是 主要 用 来 运行 具体 处 理 组 件 逻 辑 的 进程 。Weorker 运行 的 任务 类 型 有 两 种 : 
一 是 Spout 任务 ; 二 是 Bolt 任务 。Worker 中 每 一 个 Spout/ Bolt 的 线程 被 称 为 一 个 任务 。 
在 Storm0. 8 之 后 ,任务 不 再 与 物理 线程 对 应 ,不 同 Spout/ Bolt 的 任务 可 能 会 共享 一 个 物 
理 线程 ， 该 线程 称 为 Executor。 

4. ZooKeeper 


ZooKeeper 称 为 协调 节点 ， 主 要 用 来 协调 Nimbus 和 Supervisor， 如 果 Supervisor 因 
出 现 故障 而 无 法 运行 拓扑 ，Ninibus 会 第 一 时 间 知 晓 ,， 并 重新 分 配 拓扑 到 其 他 可 用 的 Su- 
pervisor 上 运行 。Nimbus 和 Supervisor 之 间 所 有 的 协调 (如 分 布 式 状态 维护 和 分 布 式 配 置 
管理 ) 都 是 通过 该 协调 节点 实现 的 。 为 实现 服务 的 高 可 用 性 ，ZooKeeper 一 般 都 是 以 集群 
的 形式 出 现 的 。 


“Storm 的 通信 机 制 在 


由 于 不 同 拓扑 之 间 的 通信 不 是 由 Storm 负责 的 ， 常 通过 Kafka 实现 ， 还 可 以 通过 No- 
SQL 的 Redis(Remote Dictionary Server， 远 程 字典 服务 ) 保 存 一 些 需要 共享 的 数据 资源 。 
因此 本 节 主 要 介绍 Storm 进程 间 以 及 进程 内 部 通信 (线程 间 的 通信 ?的 相关 原理 和 技术 。 

(1) Worker 进程 间 的 通信 : 经 常 需要 通过 网 络 跨 节点 进行 ，Storm 采用 ZeroMGQ 或 
Netty (0. 9 以 后 默认 使 用 ) 作 为 进程 间 通 信 的 消息 框架 。 

(2)Worker 进程 内 部 通信 : 不 同 Worker 的 线程 通信 通过 使 用 LMAX Disruptor 来 











完成 。 
下 面 主 要 从 Worker 进程 间 的 通信 原理 、Worker 进程 间 技 术 以 及 Worker 内 部 通信 技 
术 三 个 方面 进行 介绍 。 

1. Worker 进程 间 的 通信 原理 

Worker 进程 间 通 信和 原理 示意 图 如 图 7.5 所 示 。 

(1) 对 于 Worker 进程 而 言 ， 为 了 对 流入 和 传 出 的 消息 进行 管理 ， 每 个 Worker 进程 有 
一 个 独立 的 接收 线程 监听 配置 的 TCP 接收 端口 .将 每 个 从 网 络 传 进来 的 消息 传送 到 Ex- 
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接收 TCP 端 口 发 送 TCP 端 口 
图 7.5 Worker 进程 间 通 信和 原理 示意 图 


ecutor 的 接收 队列 里 ; 每 个 Worker 存在 一 个 独立 的 发 送 线程 ， 负 责 读 取 Worker 传输 队 
列 中 的 消息 ， 且 通过 网 络 发 送 给 其 他 -Warker。 

(2) 每 个 Executor( 执 行程 序 ) 都 有 自身 的 接收 队列 和 发 送 队列 。 

Worker 接收 线程 将 收 到 的 消息 通过 任务 编号 传递 给 传输 队列 或 者 对 应 的 Executor 的 
接收 队列 。 每 个 Executor 都 有 单独 的 线程 来 分 别处 理 Spout/Bolt 的 业务 罗 辑 ， 业务 逻辑 
输出 的 中 间 数 据 存放 在 发 送 队 列 中 ; 且 当 Exeeutor' 发 送 队 列 中 的 元 组 达到 一 定 的 阔 值 ， 
Executor 的 发 送 线程 将 批量 获取 发 送 队 列 中 的 元 组 ， 并 发 送 到 传输 队列 中 。 

(3) 每 个 Worker 进程 控制 一 个 或 多 个 下 xecutor 线程 ， 用 户 可 根据 实际 需求 在 代码 中 
进行 配置 ， 即 对 应 的 是 在 代码 中 设置 的 并 发 度 个 数 。 

总 而 言 之 ， 每 个 Worker 都 有 对 应 的 接收 线程 专门 用 来 通过 网 络 接收 外 部 发 送 过 来 的 
消息 ， 并 根据 元 组 中 包含 的 TaskId 匹配 到 对 应 的 Executor， 然 后 将 该 消息 传递 到 对 应 的 
Executor 线程 的 接收 队列 中 ; 随后 Executor 从 接收 队列 内 取出 数据 进行 处 理 后 ， 将 中 间 
结果 输出 到 发 送 队 列 中 ， 当 发 送 队列 中 的 数据 量 达到 规定 的 阔 值 后 ，Executor 的 发 送 线 
程 会 将 发 送 队列 中 的 数据 发 送 到 Worker 的 传输 队列 中 ， 而 Worker 的 发 送 线程 再 从 发 送 
队列 中 读 取 消息 ， 并 通过 网 络 发 送 给 其 他 的 Worker。 

2. Worker 进程 间 技 术 


Worker 进程 间 经 常 涉及 的 技术 有 Netty 和 ZeroMQ。 

(1)Netty 是 一 个 Java 开源 框架 , 它 提供 了 异步 的 和 事件 驱动 的 网 络 应 用 程序 框架 和 
工具 ,使 用 它 可 以 快速 开发 具有 高 性 能 和 高 可 靠 性 的 网 络 服务 器 以 及 客户 端 程序 。 也 就 
是 说 ，Netty 是 一 个 基于 NIO 的 客户 端 服 务 器 框架 ,使 用 Netty 可 以 确保 快速 和 简单 地 开 
发 出 一 个 网 络 应 用 ， 如 服务 器 和 客户 端 协议 。Netty 提供 了 一 种 新 的 容易 使 用 和 扩展 性 很 
强 的 方式 来 开发 网 络 应 用 程序 。 虽 然 Netty 的 内 部 实现 比较 复杂 ,但 是 Netty 提供 了 从 网 

















络 处 理 代 码 中 解 耦 业务 逻辑 的 API， 这 种 API 简单 且 易 用 。Netty 的 实现 是 完全 基于 NIO 
的 ， 因 此 整个 Netty 都 是 异步 的 。 

(2) ZeroMQ 是 一 个 简单 且 极其 好 用 的 传输 层 ， 像框 架 一 样 的 套 接 字库 (Socket 
Library)， 它 使 得 套 接 字 编程 更 加 简洁 高 效 。ZeroMQ 是 一 种 基于 消息 队列 的 多 线程 网 络 
库 ， 介 于 应 用 层 以 及 传输 层 之 间 ， 可 在 多 个 线程 、 内 核 和 主机 盒 之 间 进 行 弹性 伸缩 。 
ZeroMQ 的 明确 目标 为 “成 为 标准 网 络 协议 栈 的 一 部 分 ， 之 后 进入 Linux 内 核 ”。 虽 然 现 
在 还 未 看 到 它们 的 成 功 , 但 它 无 疑 是 极 具 前 景 的 且 是 人 们 急需 的 “传统 ”BSD 套 接 字 之 
上 的 一 层 封 装 。ZeroMQ 使 编写 高 性 能 网 络 应 用 程序 变 得 简单 且 有 趣 。 
3，Worker 内 部 通信 技术 


不 同 Worker 内 部 的 线程 通信 通过 LMAX Disruptor 来 完成 。Disruptor 技术 就 是 
由 LMAX 公司 开发 的 ， 它 是 开源 的 。Disruptor 是 一 个 高 性 能 的 异步 处 理 框架 ， 也 可 
以 当成 是 线程 间 通 信 的 高 效 低 延 时 的 内 存 消息 组 件 ， 其 最 显著 的 特点 是 高 性 能 ， 它 
的 LMAX 架 构 可 获得 6000000 订单 /s， 用 1ps 的 延迟 可 获得 100KB 十 的 吞吐 量 。 
Disruptor 具有 “队列 ”的 功能 ， 而 且 是 一 个 有 界 队 列 ( 其 长 度 是 有 限 的 )。 队 列 的 应 
用 场景 为 “生产 者 -消费 者 ”模型 。Disruptor 是 一 种 线程 间 信息 无 锁 的 交换 方式 。 
Disruptor 可 以 看 成 是 事件 监听 或 消息 机 制 、 队列 中 ,生产 者 在 一 边 放 入 消息 ， 消 费 
者 并 行 在 另外 一 边 取出 进行 处 理 。 它 的 底层 是 一 个 数据 结构 Ring Buffer， 也 是 Dis- 
ruptor 的 核心 组 件 。 

Disruptor 的 主要 特点 如 下 。 

(1) 没 有 竞争 ， 没 有 锁 , 速度 非常 快 。 

(2) 所 有 访问 者 都 对 自己 序号 的 实现 方式 进行 记录 ,允许 多 个 生产 者 和 消费 者 共享 相 
同 的 数据 结构 。 

(3) 在 每 个 对 象 中 都 能 跟踪 序列 号 , 另外 具有 缓存 行 填充 (Cache Line Padding) 功 能 ， 
这 表明 了 不 存在 伪 共享 和 非 预期 的 竞争 。 


Storm 的 编程 模型 


Storm 的 编程 模型 也 就 是 Worker 的 工作 流程 ,图 7. 6 为 Storm 编程 模型 示意 图 。 
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图 7.6 Storm 编程 模型 示意 图 


首先 从 局 部 进行 深入 介绍 ， 然 后 再 从 整体 进行 介绍 。 图 7.6 中 涉及 的 重要 部 分 说 











明 如 下 。 

(1)DataSource: 外 部 数据 源 。 

(2)Spout: 获取 外 部 数据 源 的 组 件 ， 将 外 部 数据 源 转化 成 Storm 内 
部 的 数据 ， 以 元 组 为 基本 单元 传输 给 Bolt。 

(3)Bolt: 接收 Spout 或 者 其 上 游 Bolt 发 送 的 数据 ， 并 根据 业务 逻辑 。 宰 型 简介 ] 
处 理 组 件 。 处 理 后 的 数据 发 送 给 下 游 的 Bolt 或 是 存储 到 某 种 介质 上 。 用 户 可 在 Bolt 上 执 
行 想 要 的 操作 。 

(4)Tuple: 数据 传输 的 基本 单元 ， 内 部 封装 一 个 用 于 保存 数据 的 List 对 象 。 

(5)StreamGrouping: 表示 数据 分 组 策略 。 对 于 Spout， 既 可 以 向 内 部 的 Bolt 发 送 数 
据 还 可 以 向 外 部 的 Bolt 发 送 数据 ， 此 时 便 会 产生 数据 流向 的 问题 。Storm 有 八 种 类 型 的 
Stream 分 组 策略 ， 下 面 分 别 介绍 。 

@O ShuffleGrouping: 随机 分 组 ， 即 将 元 组 随机 分 配 到 各 个 Bolt 中 ,保证 了 各 任务 中 
处 理 的 数据 相对 均衡 。 

@ FieldsGrouping: 按 字段 分 组 ， 即 同一 个 单词 只 能 发 送 给 一 个 Bolt; 根据 设 定 的 字 
段 ， 若 值 相 同 ， 元 组 才能 被 分 配 到 同一 个 Bolt 中 处 理 ; 

@ AllGrouping: 广播 发 送 ， 即 对 于 每 一 个 元 组 -所 有 的 Bolt 都 会 收 到 广播 发 送 ， 也 
就 是 说 所 有 Bolt 都 可 以 接收 到 该 元 组 。 

@ GlobalGrouping: 全 局 分 组 ， 即 将 元 组 分 配 到 Task ID 值 最 低 的 任务 里 。 

@ NoneGrouping: 随机 分 派 ， 即 不 分 组 ， 效 果 跟 Shuffle Grouping 一 样 。 

@ DirectGrouping: 直接 分 组 ， 即 指定 元 组 与 Bolt 相 对 应 的 收发 关系 。 

@ Local or Shuffle Grouping: 本 地 或 者 随机 分 组 ; 即 优先 将 数据 发 送 到 本 机 处 理 器 ， 
若 本 机 无 相应 的 处 理 器 ， 则 发 送 给 其 他 处 理 器 ， 很 好 地 减轻 了 网 络 传输 的 压力 。 

图 CustomGrouping: 自 定义 分 组 。 














Na 7.3 Storm 的 相关 应 用 
回国 wy | 
? > 在 对 各 行 各 业 业 务 数据 的 获取 和 分 析 方 面 ， 一般 需 要 借助 实时 分 析 
省 的 数据 处 理 方法 。Storm 主要 是 实时 流 数据 处 理 ， 且 鉴于 Storm 在 处 理 
[Swwrm 的 ”实时 流 数 据 的 过 程 中 ， 具有 实时 性 、 可 靠 性 、 完 整 性 以 及 可 扩展 性 等 优 
应 用 场景 ] ” 势 ， 所 以 它 在 实践 中 具有 广泛 的 应 用 。 


Storm 的 实时 大 数据 平台 在 携程 中 的 应 用 


携程 有 非常 多 的 业务 部 门 ， 除 酒店 和 机 票 两 大 主要 业务 外 ,还 有 将 近 20 个 SBU 
(Strategic Business Unit， 战 略 业务 单 元 ) 和 公共 部 门 ， 他 们 的 业务 形态 各 异 ， 变 化 较 快 。 
在 做 这 个 统一 的 实时 平台 之 前 ， 各 个 部 门 也 做 了 一 些 实时 数据 分 析 的 应 用 , 但 是 存在 以 
下 很 多 问题 。 

51) 业务 部 门 技术 力量 良 鞠 不 齐 ， 且 他 们 的 重心 放 在 业务 需求 的 实现 上 ， 所 以 难以 保 
证 这 些 实时 数据 应 用 的 稳定 性 。 

(2) 缺 少 周边 配套 设施 ， 如 报警 、 监 控 等 设施 。 




















53) 数据 和 信息 的 共享 不 顺畅 。 
此 ， 要 想 解决 这 些 问 题 ， 需 要 打造 一 个 统一 的 实时 数据 平台 。 
造 的 数据 平台 需要 满足 以 下 需求 。 

(1) 稳 定 可 靠 的 平台 : 业务 部 门 只 需要 关心 业务 ， 平 台 交 给 专业 人 员 维护 。 

(2) 完 整 的 配套 设施 : 测试 环境 、 上 线 、 监 控 以 及 报警 。 

(3) 信 息 共 享 : 数据 共享 ， 应 用 场景 共享 。 

(4) 及 时 的 服务 : 及 时 解决 从 开发 、 上 线 到 维护 整个 过 程 中 的 问题 。 

明确 需求 后 ， 就 可 以 开始 构建 平台 。 首 先 需 要 考虑 的 是 技术 选 型 的 问题 ， 消 息 队列 方面 
选用 Kafka; 而 实时 处 理 平台 有 较 多 的 候选 系统 (如 Linkedin 的 Samza、Apache 的 S4、Storm 
以 及 Spark- Streaming)， 考虑 到 稳定 性 和 成 熟 度 方面 ， 可 选择 Storm 作为 实时 平台 。 

架构 思想 : 首先 从 业务 的 服务 器 上 收集 日 志 , 或 者 是 一 些 业务 数据 ， 然 后 实时 地 写 
入 Kafka，Storm 从 Kafka 中 读 取 数据 进行 计算 ， 把 计算 结果 传输 到 各 个 业务 线 依 赖 的 外 
部 存储 中 。 但 是 仅仅 构建 这 些 是 不 够 的 ， 还 需要 保证 数据 共享 和 平台 整体 的 稳定 性 这 两 
个 关键 的 需求 。 

(1) 数 据 共 享 : 通常 数据 共享 的 前 提 是 指 用 户 要 清晰 地 了 解 使 用 数据 源 的 业务 含 
义 和 数 据 的 Schema， 用 户 在 一 个 集中 的 地 方 能 够 看 到 这 些 信息 。 解 决 的 方式 是 使 用 
Avro 定义 数据 的 Schema， 并 将 这 些 信 息 放 在 一 个 统一 的 门户 (Portal) 站 点 上 ， 数据 
的 生产 者 创建 Topic， 然 后 上 传 Avro 格式 的 Schema， 系统 会 根据 Avro 的 Schema 生 
成 Java 类 ， 并 生成 相应 的 JAR, 把 JAR 加 入 Maven 仓库 ; 对 于 用 户 而 言 ， 只 需要 在 
项 目 中 直接 加 入 依赖 即 可 。 此 外 ， 平 台 封装 了 Storm 的 -API， 实现 反 序列 化 的 过 程 ， 
用 户 只 要 继承 一 个 类 ， 然 后 制定 消息 对 应 的 类 ,系统 便 能 够 自动 完成 消息 的 反 序列 
化 ， 对 用 户 而 言 特别 方便 。 

(2) 资 源 控制 -> 它 是 保证 平台 稳定 性 的 基础 ,Storm 在 资源 隔离 方面 做 得 不 太 好 ， 所 
以 需要 对 用 户 .Storm 作业 的 并 发 稍 加 控制 。 具体 做 法 是 封装 Storm 的 接口 ， 去 掉 原先 设 
定 的 拓扑 和 Exeeutor 并 发 的 方法 ， 把 这 些 设 置 转移 到 门户 中 。 此 外 ,做 了 一 个 统一 的 门 
户 ,方便 用 户 管理 ， 用 户 既 可 以 查看 主题 相关 信息 ， 又 可 以 管理 自己 的 Storm 作业 ,还 
可 以 完成 配置 、 启 动 以 及 监控 等 一 系列 功能 。 

在 完成 这 些 功 能 后 ,就 可 以 接 入 初期 业务 了 。 初 期 业务 只 接 入 了 流量 比较 大 的 两 个 
数据 源 : 一 个 是 携程 的 用 户 行 为 数据 (User Behavior Tracking，UBT); 男 一 个 是 应 用 流 
量 日 志 (Pprobe 的 数据 )。 主 要 应 用 集中 在 实时 的 数据 分 析 和 数据 报表 上 。 

在 平台 搭建 的 初期 阶段 有 以 下 几 点 经 验 。 

(1) 最 初 尽 可 能 做 好 平台 治理 的 规划 : 重要 的 设计 和 规划 都 需要 提前 做 好 。 

(2) 系 统 只 实现 核心 的 功能 : 集中 力量 。 

(3) 尽 量 早 接 入 业务 : 前 提 是 核心 功能 基本 稳定 ， 系 统 只 有 被 真正 用 起 来 才能 不 断 
































改进 。 
(4) 接 人 业务 需要 有 一 定 的 量 : 能 够 帮助 平台 更 快 实现 稳定 且 可 以 帮助 积累 技术 和 运 
维 上 的 经 验 。 


完成 以 上 工作 后 ， 就 可 以 做 以 下 这 一 系列 工作 来 完善 此 平台 的 “外 围 设 施 ”。 
(1) 把 Storm 的 日 志 导 入 ES， 通 过 看 板 系 统 展示 出 来 ; 原生 的 Storm 日 志 没有 搜 
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索 功 能 ,查看 不 方便 ,数据 导入 ES 后 可 以 通过 图 形 的 形式 进行 展示 ， 且 具有 全 文 搜 
索 功能 ， 方便 排 错 。 

(2)Metrics 相关 的 一 些 完善 ， 如 实现 了 自 定义 的 Metrics Consumer， 把 Metrics 信息 
实时 地 输出 到 携程 自己 开发 的 看 板 系统 Dashboard 和 Graphite 中 ,在 Graphite 中 的 信息 
被 用 作 告警 。 

(3) 建 立 了 完善 的 告警 系统 : 任何 Storm 内 置 的 或 是 用 户 自 定 义 的 Metrics 都 能 够 配 
置 ， 且 默认 配置 拓扑 的 失败 数 的 告警 。 

(4) 提 供 了 适合 携程 通用 消息 队列 (Message Queue) 的 Spout 和 通用 的 Bolt， 简 化 了 
用 户 的 开发 工作 。 

(5) 在 依赖 管理 上 也 想 了 一 些 方法 ， 方 便 API 的 升级 在 Muise-Core 2.0 版 本 基础 
上 ， 重 新 整理 了 相关 的 API 接口 ， 之 后 的 版 本 尽量 保证 接口 向 下 兼容 ， 推 动 所 有 业务 全 
线 升 级 一 遍 ;， 然后 把 Muise- Core 的 Jar 包 作为 标准 的 Jar 包 放 到 每 台 Supervisor 的 Storm 
安装 目录 的 lib 文 件 夹 下 ,每 次 有 API 升级 的 时 候 可 以 直接 替换 ， 然 后 重启 ; 在 以 后 的 升 
级 中 ， 如 果 是 强制 升级 ， 就 告知 用 户 ， 逐 个 重启 拓扑 ,如 果 是 非 强 制 升 级 ， 等 到 用 户 下 
次 重启 拓扑 时 ， 此 升级 就 会 生效 。 

完成 以 上 工作 后 ， 就 可 以 开始 大 规模 接 入 业务 了 。 在 携程 的 一 些 实时 应 用 ， 主 要 分 
为 下 面 四 类 : 实时 数据 报表 ; 实时 业务 监控 “基于 用 户 实时 行为 的 营销 ; 风 控 和 安全 的 
应 用 。 


基于 Storm 的 在 线 学 习 平台 数据 处 理 


由 于 “互联 网 十 ”的 飞速 发 展 ， 移 动 互联 网 在 线 学 习 平台 成 为 一 种 新 型 学 习 方 式 ， 
使 得 各 种 在 线 学 习 平台 得 到 了 广泛 的 普及 与 应 用 ， 但 是 存在 在 线 学 习 平台 大 数据 处 理 实 
时 性 差 、 消 息 请 求 较 慢 等 问题 。 在 数据 处 理 方式 上 ， 鉴 于 Storm 对 实时 流 数据 的 处 理 具 
有 实时 性 、 可 靠 性 完整 性 及 可 扩展 性 等 一 系列 优势 ， 可 以 设计 基于 Storm 的 架构 的 流 
数据 处 理 方法 ; 下 面 从 以 下 几 个 方面 进行 详细 介绍 。 

1. 系统 业务 需求 

在 线 学 习 平台 在 运行 过 程 中 会 产生 大 量 的 数据 ， 该 运行 数据 具有 类 型 多 样 、 规 模 繁 
杂 的 特点 ， 传 统 的 业务 系统 与 平台 难以 满足 当前 移动 互联 网 大 数据 平台 的 要 求 。 在 线 学 
习 平台 的 数据 来 源 主要 是 学 习 者 浏览 、 讨 论 、 留 言 、 答 疑 、 测 试 等 活动 的 记录 ， 并 将 活 
动 记录 传输 到 功能 服务 器 。 由 功能 服务 嚣 收集、 计算、 处理、 存储 学 习 者 的 学 习 情 况 。 
功能 服务 器 通过 Storm 对 实时 数据 进行 快速 清洗 、 格 式 转换 、 数 据 分 析 等 ， 解 决 请 求 响 
应 时 间 长 以 及 数据 库 因 连 接 限制 而 丢失 数据 的 问题 。Storm 在 线 学 习 平台 的 重点 在 于 集成 
多 种 数据 ,分 析 挖 掘 数据 的 可 视 化 。 

数据 读 取 和 处 理 主要 通过 Storm 的 拓扑 编程 模型 中 的 Spout 和 Bolt 组 件 完成 ， 其 中 
Spout 组 件 主要 负责 读 取 数据 ，Bolt 组 件 主要 负责 任务 处 理 ， 且 为 降低 处 理 延 迟 才 使 用 拓 
扑 编程 模型 。 

2. 方案 设计 

在 线 学 习 平 台 要 应 对 突 发 的 大 数据 量 请 求 ， 提 出 数据 源 、 大 数据 平台 和 业务 应 用 三 










































层 数 据 处 理 结构 。 
51) 数据 源 。 根 据 数据 来 源 的 不 同 ， 数 据 分 为 内 部 和 外 部 两 种 : 内 部 数据 主要 来 源 于 
后 台 、 课 程 以 及 资源 管理 系统 平台 ; 外 部 数据 主要 来 源 于 互联 网 数据 以 及 运行 中 产生 的 











(2) 大 数据 平台 。 在 线 学 习 平台 的 优化 架构 中 ， 每 个 模块 的 功能 实现 主要 通过 Mem- 
cached、Flume、Storm、Kafka 技术 实现 数据 收集 、 数 据 缓 冲 、 数 据 处 理 与 数据 存储 。 

(3) 业 务 应 用 。 学 习 者 通过 课程 学 习 、 讨 论 以 及 测试 等 形成 数据 流 ， 由 互动 管理 者 实 
现 多 维度 统计 ， 并 通过 Storm 架构 进行 流 数据 处 理 。 

3. 平台 设计 与 实现 

首先 安装 Storm 系统 依赖 包 与 工具 包 ， 在 若干 个 节点 机 构 集群 上 搭建 Storm 开发 环境 。 
依赖 安装 包 主 要 包括 Python、Jdk、Gec_C 十 十 、Libuuid、Uuid、Libtool、Libuuid- Devel 等 ; 
在 安装 工具 上 使 用 ZooKeeper 封装 关键 服务 ， 防 止 协调 系统 出 错 ， 为 用 户 提供 简单 易 用 、 人 性 
能 高 效 、 稳 定 的 接口 ; 安装 ZeroMQ 用 于 处 理 一 个 消息 队列 ` 实现 多 个 线程 、 内 核 和 主机 盒 
之 间 的 灵活 伸缩 ， 采 用 ZeroMGQ 屏蔽 网 络 编程 。 

通过 Storm 实现 主 程序 设计 ,方便 在 任 一 计算 机 集群 中 编写 与 扩展 复杂 的 实时 计算 ， 
保证 每 个 消息 都 能 被 及 时 处 理 并 集中 在 一 个 小 集群 中 ,实现 每 秒 处 理 百 万 消息 。 

在 线 课程 平台 流 数据 处 理 架 构图 如 图 7.7 所 示 。 系 统 从 数据 来 源 、Storm 计算 平台 及 
流 处 理 三 个 方面 着 手 ， 分 析 平 台中 所 获取 一 处 理 及 存储 的 数据 。 系 统 对 数据 进行 收集 及 
预 处 理 后 ， 将 收集 到 的 数据 提供 给 实时 应 用 系统 ， 且 将 不 完整 的 数据 处 理 成 为 标准 化 数 
据 ， 通过 业务 逻辑 对 数据 进行 分 析 ， 最 后 将 处 理 结果 存储 在 数据 库 中 。 
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图 7.7 在 线 课程 平台 流 数 据 处 理 架 构图 


数据 存储 主要 采用 关系 型 数据 库存 储 数据 ， 即 在 关系 型 数据 库 前 加 上 Memcached 暂 
存 数 据 ， 保 证 数据 连接 池 中 数据 的 完整 性 ， 并 解决 数据 存储 和 处 理 速度 不 一 致 的 问题 ， 
所 有 存储 过 程 通过 Storm 中 的 Bolt 组 件 完成 。 系 统 采用 ZooKeeper 的 锁 机 制 来 保证 数据 
的 完整 性 和 一 致 性 。 











本 章 小 结 


本 章 首先 介绍 了 Storm 的 概念 ， 并 详细 介绍 了 Storm 各 组 件 的 基本 概念 和 功能 以 及 
各 组 件 之 间 的 关联 ， 分 析 了 Storm 的 特点 ， 且 给 出 了 它 在 Linux 系统 上 的 安装 步骤 。 然 
后 ， 从 Storm 的 系统 架构 组 成 、 通 信 机 制 以 及 编程 模型 这 三 方面 介绍 了 Storm 的 流 式 数 
据 处 理 原理 。 最 后 ,阐述 了 Storm 实时 大 数据 平台 在 携程 中 的 应 用 ， 并 介绍 了 基于 Storm 
模型 的 在 线 学 习 平 台 分 析 及 搭建 方法 。 


~ 
全 关键 术语 


(1)Storm (2)Topology (3)Spout (4)Bolt 
(5) 系 统 架构 (6) 通 信 机 制 (7) 编 程 模 型 
习 题 
1, 选择 题 
(1) 下 列 不 属于 Storm 组 件 的 是 ( ) 。 
A. Topology B. Nimbus 
C. Supervisor D. ZooKeeper 
(2) 不 同 Topologey 之 间 的 通信 常 通过 ( 。 “) 实 现 % 
A. Tuple B. ZooKeeper 
C. Kafka D; Topology 
(3)Storm 集 群 主 节点 是 ( ) ， 从 节点 是 Supervisor。 
A. Nimbus B. Tuple 
C. Executor D. 以 上 都 不 是 
(4) Worker 运行 的 任务 类 型 有 两 种 : 一 是 Spout 任务 ; 二 是 (  ) 任 务 。 
A. Tuple B. Bolt 
C. Stream D. Stream Grouping 
(5) 以 下 属于 Storm 的 分 组 策略 的 是 ( )。 
A. ShuffleGrouping B. FieldsGrouping 
C. DirectGrouping D. 以 上 全 部 
(6) 每 个 Spout 和 Bolt 一 般 会 以 ( ) 任 务 的 形式 在 集群 上 运行 。 
一 本 B. 两 个 
本 D. 多 个 
2. 判断 题 
(1) 在 Strom 的 拓扑 中 ， 所 有 的 计算 逻辑 都 是 在 Bolt 中 实现 的 。 ( ) 
(2)Strom 只 支持 在 Linux 上 部 署 。 ) 


(3)Storm 是 分 布 式 流 式 数据 处 理 系统 。 ( ) 








(5)Storm 集群 常 采用 双 主 架构 的 形式 。 ( 
(6)ZooKeeper 称 为 协调 节点 ,主要 用 来 协调 Nimbus 和 Supervisor。 K 
3. 简 答 题 

(1) 简 述 Storm 的 核心 组 件 及 各 组 件 的 功能 。 

(2)Storm 主要 有 哪些 特点 ? 

(3) 简 述 ZooKeeper 在 Storm 中 的 作用 。 

(4)Storm 通常 包括 哪 两 种 通信 机 制 ? 说 明 常用 的 处 理 技术 。 
(5)Disruptor 技术 主要 有 哪些 特点 ? 

(6)Storm 有 哪些 类 型 的 Stream 分 组 策略 ? 
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4 全 mr 本章 教学 要 点 
知识 要 点 掌握 程度 相关 知识 
图 数据 库 的 概念 掌握 边 、 属 性 关系 
图 数据 库 的 基本 框架 熟悉 底层 存储 、 处 理 引 擎 、 原 生 图 存储 
图 数据 库 的 内 部 结构 掌握 Neo4j 图 数据 、 原 生 图 处 理 、API 
图 数据 库 的 应 用 了 解 Neo4j 物理 存储 结构 、 适 用 场景 
Flink 技术 简介 熟悉 概念 、 核 心 组 成 
Flink 的 特性 掌握 处 理 方 式 、 容 错 机 制 、 序 列 化 工具 
Flink 的 应 用 了 解 应 用 场景 
Kafka 技术 简介 熟悉 设计 构架 、 作 用 
Kafka 功能 介绍 掌握 高 春 吐 功能 的 实现 、 高 可 用 功能 的 实现 
Kafka 的 应 用 了 解 应 用 架构 、 应 用 领域 











E 为 前 面 几 童 大 数据 处 理 技 术 的 一 个 补充 。 本 章 主 要 介绍 大 数据 处 理 中 的 图 数据 库 
(Graph DataBase) 技 术 、Flink 技术 以 及 Kafka 技术 ,图 形 数据 库 是 一 种 非 关 系 型 数据 库 ， 
它 应 用 图 形 理论 存储 实体 之 间 的 关系 信息 。 图 数据 库 在 社交 网 络 、 实 时 推荐 、 征 信 系 统 、 
人 工 智能 等 领域 都 有 广泛 的 应 用 。Flink 是 为 分 布 式 、 高 性 能 、 随 时 可 用 以 及 准确 的 流 处 
理应 用 程序 打造 的 开源 流 处 理 框 架 。 适 用 于 海量 数据 处 理 、 低 延 时 数据 处 理 以 及 快速 数 
据 处 理 等 情形 。Kafka 是 由 LinkedIn 开源 的 分 布 式 消息 队列 ， 能 够 轻松 实现 高 吞吐 、 可 
拓展 、 高 可 用 ， 且 部 署 简 单 快速 、 开 发 接口 丰富 。 各 大 互联 网 公司 已 经 在 生产 环境 中 广 
泛 使 用 ， 目 前 已 经 有 很 多 分 布 式 处 理 系统 支持 使 用 Kafka。 


























8.1 图 数据 库 


“如 果 把 传统 关系 型 数据 库 比 作 普通 列车 的 话 ， 那么 在 大 数据 时 代 ， 图 数据 库 可 以 比 
作 高 速 列车 。” 图 数据 库 已 经 成 为 关注 度 高 、 发 展 趋势 明显 的 数据 库 , 它 提供 了 强大 而 新 















颖 的 数据 建 模 方法 。 采 用 图 的 方案 ， 可 以 将 性 能 提升 一 个 甚至 几 个 数量 级 ， 而 且 比 起 聚 
合 的 批 处 理 ， 其 延迟 也 小 很 多 。 除 了 性 能 的 优势 之 外 ,图 数据 库 还 提供 了 非常 灵活 的 数 
据 模型 。 最 常见 的 大 规模 图 数据 的 例子 就 是 互联 网 网 页 数据 ， 网 页 之 间 通 过 链接 指向 形 
成 规模 超过 500 亿 节 点 的 巨型 网 页 图 ， 要 处 理 如 此 规模 的 图 数据 ,传统 的 单机 处 理 方式 显 
然 已 无 法 实现 ， 必 须 采用 由 大 规模 机 器 集群 构成 的 并 行 图 数据 库 。 图 数据 库 是 呈现 和 查 
询 达到 一 定 规模 的 关联 数据 的 最 好 方式 。 


图 数据 库 简介 


图 数据 库 起 源 于 欧 拉 和 图 理论 ， 也 称 为 面向 图 的 数据 库 。 图 数据 库 的 基本 含义 是 以 
“图 ”这 种 数据 结构 存储 和 查询 数据 ， 而 不 是 存储 图 片 的 数据 库 ， 它 是 基于 数学 中 图 论 的 
算法 而 实现 的 高 效 处 理 复 杂 关 系 网 络 的 新 型 数据 库 系 统 ， 它 善于 处 理 大 量 的 、 复 杂 的 、 
互联 的 、 多 变 的 网 状 数据 。 图 数据 库 的 数据 模型 主要 是 以 节点 和 关系 ( 边 ) 来 体现 ， 也 可 
以 处 理 键 值 对 。 图 数据 库 可 以 快速 解决 复杂 的 关系 问题 。 

图 包括 节点 和 边 ， 节 点 上 有 属性 ( 键 值 对 )， 边 有 名 字 和 方向 ， 并 总 是 有 一 个 开始 节 
点 和 一 个 结束 节点 ， 边 也 可 以 有 属性 。 图 可 以 说 是 顶点 和 边 的 集合 ， 或 者 说 是 一 些 节点 
和 关联 这 些 节点 的 关联 的 集合 。 图 将 实体 表示 为 节点 * 实体 与 其 他 实体 连接 的 方式 表示 
为 联系 。 可 以 用 这 个 通用 的 结构 来 构建 和 表示 各 种 场景 例如， 从 机 场 构建 到 道路 系统 ， 
从 食物 的 供应 链 及 原 产地 追踪 人 们 的 病历 以 及 更 多 的 其 他 场景 。 图 无 处 不 在 ， 在 科学 、 
经 济 等 领域 中 ， 图 起 到 了 很 大 作用 ; 现实 世界 中 存在 着 丰富 的 且 相 互 关联 的 各 种 关系 ， 
有 些 关 系 是 统一 而 规则 的 ,而 有 些 则 是 特殊 的 、 不 规则 的 。 以 微 博 为 例 ， 它 的 数据 很 容 
易 就 表示 为 一 张 图 。 在 如 图 8.1 所 示 的 小 型 社交 图 中 ,可 以 看 到 微 博 用 户 组 成 的 一 个 小 型 
社交 网 络 ， 每 个 节点 都 被 标注 为 用 户 ， 表 明了 他 (她 ?在 这 个 网 络 中 的 角色 。 然 后 这 些 节 
点 又 相互 连接 起 来 ; 帮助 更 好 理解 。 从 图 中 可 以 看 出 ， 小 明 关 注 了 小 芳 ， 小 芳 关 注 了 者 
莉 ， 莉 莉 也 关注 了 小 芳 ， 但 莉莉 没有 关注 小 明 ， 小 明 却 关注 了 莉莉 。 

















小 明 


藤 沙 
斑 米 


用 户 用 户 
关注 
图 8.1 小 型 社交 图 
当然 实际 中 微 博 图 型 要 比 图 8. 1 复杂 很 多 ,但 它们 的 工作 原理 是 一 样 的。 此 外 ， 图 模 
型 也 可 以 更 复杂 ,例如 图 模型 可 以 是 一 个 被 标记 和 标 向 的 属性 多 重 图 。 被 标记 的 图 每 条 
边 都 有 一 个 标签 ， 它 用 来 表示 那 条 边 的 类 型 。 有 向 图 允许 有 一 个 固定 的 方向 ， 从 末节 点 
或 源 节 点 到 首 节 点 或 目标 节点 。 属 性 图 允许 每 个 节点 和 边 有 一 组 可 变 的 属性 列表 ， 其 中 














的 属性 是 关联 某 个 名 字 的 值 ， 简 化 了 图 形 结构 。 多 重 图 允许 两 个 节点 之 间 存 在 多 条 边 ， 
这 意味 着 两 个 节点 可 以 由 不 同 边 连 接 多 次 ， 即 使 两 条 边 有 相同 的 尾 、 头 和 标记 。 图 数据 
库 属性 关系 图 如 图 8. 2 所 示 。 
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图 "8.2 图 数据 库 属性 关系 图 


图 8.2 所 示 为 较 复 杂 的 图 模型 。 图 数据 库存 储 一 些 顶 点 、 边 以 及 表 中 的 数据 ， 它 们 用 
最 有 效 的 方法 来 寻找 数据 项 之 间 、 模 式 之 间 的 关系 ,或 多 个 数据 项 之 间 的 相互 作用 。 一 
张 图 里 数据 记录 在 节点 ,或 包括 在 属性 里 面 。- 最 简单 的 图 是 单 节点 的 ， 记 录 了 一 些 属性 。 
一 个 节点 可 以 从 单 属性 开始 ， 成 长 为 成 千 上 亿 。 从 某 种 意义 上 讲 ， 将 数据 用 关系 连接 起 
来 分 布 到 不 同 节点 上 才 是 有 意义 的 。 

1. 图 数据 库 的 基本 框架 

图 计算 是 在 实际 应 用 中 比较 常见 的 计算 类 别 ， 当 数据 规模 大 到 一 定 程度 时 ,如何 对 
其 进行 高 效 计 算 即 成 为 迫切 需要 解决 的 问题 。 大 规模 图 数据 (如 支付 宝 的 关联 图 )， 仅 好 
友 关 系 已 经 形成 超过 千 亿 节点 和 边 的 巨型 图 ， 要 处 理 如 此 规模 的 图 数据 ， 传 统 的 单机 处 
理 方式 已 经 无 能 为 力 ， 必 须 采 用 由 大 规模 机 器 集群 构成 的 并 行 图 数据 库 。 在 处 理 图 数据 
时 ， 其 内 部 存储 结构 往往 采用 邻接 矩阵 或 邻接 表 的 方式 。 在 大 规模 并 行 图 数据 库 场景 下 ， 
邻接 表 的 方式 更 加 常用 ， 大 部 分 图 数据 库 和 处 理 框架 都 采用 了 这 一 存储 结构 。 

在 研究 图 数据 库 技术 时 ， 有 两 个 特性 需要 留意 : 一 个 是 底层 存储 ; 另 一 个 是 处 理 引擎 。 
一 些 图 数据 库 使 用 原生 图 存储 ， 这 类 存储 是 优化 过 的 ， 并且 是 专门 为 了 存储 和 管理 图 而 设计 
的 。 不 过 ， 并 不 是 所 有 图 数据 库 使 用 的 都 是 原生 图 存储 ， 也 有 一 些 会 将 图 数据 序列 化 ， 然 后 
保存 到 关系 型 数据 库 、 面 向 对 象 数据 库 ， 或 其 他 通用 数据 存储 中 。 原 生 图 存储 的 好 处 在 于 它 
是 专门 为 性 能 和 扩展 性 设计 建造 的 。 但 相对 的 , 非 原 生 图 存储 通常 建立 在 成 熟 的 非 图 后 端 









































(如 MySQL) 之 上 , 运 维 团队 对 它们 的 特性 非常 了 解 。 原 生 图 处 理 虽 然 在 遍历 查询 时 性 能 优 
势 很 大 ， 但 代价 是 一 些 非 遍历 类 查询 会 比较 困难 ， 而 且 还 要 占用 巨大 的 内 存 。 图 计算 引擎 技 
术 可 以 使 大 数据 集 上 使 用 全 局 图 算法 。 图 计算 引擎 主要 用 于 识别 数据 中 的 集群 ， 通 用 的 图 
算 引 擎 部 署 架构 包括 一 个 带 有 OLTP(On - Line Transaction Processing， 联 机 事务 处 理 ) 属 性 
的 SOR(System of Record， 记 录 系 统 ) 数 据 库 ( 如 MySQL、Oracle 或 Neo4j) ， 它 为 应 用 程序 
提供 服务 ， 请 求 并 响应 应 用 程序 在 运行 中 发 送 过 来 的 查询 。 每 隔 一 段 时 间 ， 一 个 ETL 作业 
就 会 将 记录 系统 数据 库 的 数据 转 人 图 计算 引擎 ， 供 离线 查询 和 分 析 。 一 个 成 熟 的 图 数据 库 架 
构 应 该 至 少 具备 图 的 存储 引擎 和 图 的 处 理 引 擎 ， 同 时 应 该 有 查询 语言 和 运 维 模块 ， 商 业 化 产 
品 还 应 该 有 高 可 用 HA 模块 甚至 容 灾 备份 机 制 。 


2. 图 数据 库 的 优 缺 点 


关系 型 数据 库 设计 之 初 是 为 了 处 理 纸 质 表 格 和 表格 化 结构 ; 它们 试图 对 这 种 实际 中 
的 特殊 联系 进行 建 模 。 然 而 ， 关 系 型 数据 库 在 处 理 联系 上 做 得 并 不 好 。 关 系数 据 库 是 强 
大 的 主流 数据 库 , 经 过 几 十 年 的 发 展 和 改进 , 已 经 非常 可 靠 、 强 大 并 且 实 用 ,可 以 保存 
大 量 的 数据 。 如 果 想 查询 关系 型 数据 库 里 的 单一 结构 或 对 应 数据 信息 的 话 ， 可 以 在 任何 
时 间 内 查询 关于 项 目的 信息 ,或 者 想 查询 许多 项 目 在 相同 类 型 中 的 总 额 或 平均 值 ， 也 将 
很 快 查 到 。 但 当 寻 找 数据 项 、 关 系 模式 或 多 个 数据 项 之 间 的 关系 时 ， 却 通常 无 法 得 到 管 
案 。 关 系 确实 存在 于 关系 型 数据 库 自 身 的 术语 中 ,但 只 是 作为 连接 表 的 手段 。 实 际 中 经 
常 需要 对 连接 实体 的 联系 进行 语义 区 分 、 同 时 限制 它们 的 使 用 ;但 是 关联 关系 会 随 着 数 
据 成 倍 地 增加 ,数据 集 的 宏观 结构 将 越发 复杂 和 不 规整 > 关系 模型 将 造成 大 量 表 连接 、 
稀疏 行 和 非 空 检查 迎 辑 。 关 系 世 界 中 连通 性 的 增强 都 将 转化 为 Join 操作 的 增加 ， 这 会 阻 
碍 性 能 ， 并 使 已 有 的 数据 库 难以 响应 变化 的 业务 需求 。 

相对 于 关系 型 数据 库 和 NoSQL 存储 处 理 关联 数据 而 言 ， 图 数据 库 性 能 有 了 绝对 性 的 
提升 。 随 着 数据 集 的 不 断 扩 大 ， 关 系 型 数据 库 处 理 密集 查询 的 性 能 会 随 之 变 差 ， 而 图 数 
据 库 则 不 会 ; 在 数据 集 增 大 时 ,图 数据 库 的 性 能 趋向 于 保持 不 变 ， 这 是 因为 查询 总 是 只 
与 图 的 一 部 分 相关 ; 因此 ， 每 个 查询 的 执行 时 间 只 和 满足 查询 条 件 的 那 部 分 遍历 的 图 的 
大 小 成 正比 ， 而 不 是 与 整个 图 的 大 小 成 比例 。 在 社交 网 络 得 到 极 大 发 展 的 互联 网 时 代 ， 
图 数据 库 的 这 些 特 点 使 其 在 关联 关系 上 具有 很 大 的 优势 。 

图 本 身 具有 可 扩展 性 ， 这 使 得 在 已 有 的 结构 上 增加 不 同 种 类 的 新 联系 、 新 节点 、 新 
标签 和 新 子 图 ， 都 不 会 破坏 已 有 的 查询 或 应 用 程序 的 功能 。 同 时 ， 由 于 图 的 灵活 性 ,不 
必 在 项 目 初期 就 把 每 一 个 细 枝 末节 都 考虑 周全 ， 图 天 然 的 可 扩展 性 减少 了 数据 的 迁移 ， 
从 而 降低 了 维护 成 本 和 风险 。 图 数据 库 具 有 很 好 的 敏捷 性 。 图 数据 库 没 有 固定 的 模式 ， 
加 上 其 API 和 查询 语言 的 可 测 性 ， 使 人 们 可 以 用 一 个 可 控 的 方式 来 开发 应 用 程序 。 也 正 
是 因为 图 数据 库 不 需要 模型 ， 所 以 它 缺 少 以 模型 为 导向 的 数据 管理 机 制 ， 但 这 并 不 是 一 
个 缺点 ; 相反 它 促使 人 们 采用 了 一 种 更 可 见 的 、 操 作 性 更 强 的 管理 方式 。 图 数据 库 的 
管理 通常 也 影响 编程 方式 ， 利 用 测试 来 驱动 数据 模型 和 查询 ， 以 及 依靠 图 来 判断 业务 关 
系 ， 这 上 比 关 系 型 开发 应 用 更 广 。 图 数据 库 开发 方式 非常 符合 当今 的 敏捷 软件 开发 和 测试 
驱动 软件 开发 实践 ， 这 使 得 图 数据 库 作为 后 端 应 用 程序 可 以 跟 上 不 断 变化 的 业务 环境 。 

不 过 ， 图 数据 库 也 并 非 完美 ， 它 虽然 弥补 了 很 多 关系 型 数据 库 的 缺陷 ,但 是 也 有 一 















































些 不 适用 的 地 方 ， 例如 ,记录 大 量 基于 事件 的 数据 ;对 大 规模 分 布 式 数据 进行 处 理 ; 二 
进 制 数据 存储 。 图 数据 库 在 处 理 “ 大 数据 ”方面 不 如 Hadoop、HBase 或 Cassandra， 通 
常 不 会 在 图 数据 库 中 直接 处 理 海量 数据 的 分 析 。 但 它 善于 提供 关于 某 个 实体 及 其 相 邻 数 
据 的 关系 ,无论 是 简单 的 CRUD( 增 删改 查 ) 访 问 或 是 复杂 的 、 深 度 嵌 套 的 资源 视图 都 能 
够 胜任 。 所 以 ,虽然 关系 型 数据 库 对 于 保存 结构 化 数据 来 说 依然 是 最 佳 的 选择 ,但 图 
据 库 更 适合 管理 半 结 构 化 数据 、 非 结构 化 数据 以 及 图 形 数据 。 如 果 数 据 模型 中 包含 大 
的 关联 数据 ， 并 且 和 希望 使 用 一 种 直观 、 有 趣 、 高 效 的 数据 库 进行 开发 ， 那 么 可 以 考虑 
试图 数据 库 。 在 实际 中 ,一 个 真正 成 熟 、 有 效 的 分 析 环 境 应 该 包括 关系 型 数据 库 和 图 
据 库 ， 根 据 不 同 的 应 用 场景 相互 结合 起 来 进行 有 效 分 析 。 


图 数据 库 的 内 部 结构 


这 里 介绍 图 数据 库 的 体系 结构 模式 和 组 件 ， 展 示 图 数据 库 与 其 他 对 于 
复杂 的 、 结 构 可 变 的 、 紧 密 关联 的 数据 的 存储 方法 和 查询 方法 的 不 同 之 处 
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这 里 以 开源 的 Neo4j 图 数据 库 为 例 ，Neo4 是 一 个 具有 原生 处 理 功能 、 原 生 国 尾 和 
图 存储 且 具 有 良好 透明 度 的 图 数据 库 。 【图 数据库 
Neo4j 架构 

1. 原生 图 处 理 风光 


数据 库 引擎 的 内 存 中 存在 多 种 图 的 编码 方式 ， 对 于 不 同 的 引擎 体系 结构 ， 假 如 图 数 
据 库存 在 免 索引 邻接 属性 ， 那 么 它 就 具有 原生 处 理 能 力 。 

使 用 免 索 引 邻 接 的 数据 库 引 擎 中 的 每 个 节点 都 会 维护 它 对 相 邻 节点 的 引用 ， 因 此 每 
个 节点 都 表现 为 其 附近 节点 的 微 索引 ， 这 比 使 用 全 局 索引 代价 小 很 多 。 这 也 意味 着 ， 查 
询 时 间 与 图 的 整体 规模 无 关 ， 它 仅 和 所 搜索 图 的 数量 成 正比 。 相 反 ， 非 原生 图 数据 库 引 
获 使 用 全 局 索引 连接 各 个 节点 ,这些 索引 对 每 个 遍历 都 添加 一 个 间接 层 ， 因 此 会 导致 更 
大 的 计算 成 本 与 时 间 ;* 原生 图 处 理 中 免 索 引 邻 接 至 关 重 要 ， 因 为 它 可 提供 快速 、 高 效 的 
图 遍历 。 下 面 通过 图 形 说 明 原 生 图 处 理 相对 于 非 原生 图 处 理 的 优势 。 非 原生 图 处 理 引擎 
索引 示意 图 如 图 8. 3 所 示 。 
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Name: Lily | Name: Jack Name: Lucy Name: Bob 


图 8.3 非 原 生 图 处 理 引擎 索引 示意 图 














图 8. 3 展示 了 非 原 生 图 处 理 引 擎 使 用 索引 进行 节点 间 遍 历 的 工作 原理 。 例 如 ， 要 寻找 
Lily 的 朋友 ， 必 须 首 先 执 行 索引 查找 。 由 于 查找 索引 的 算法 复杂 度 为 O(log n)， 所 以 对 
于 数据 量 小 的 查找 是 可 以 接受 的 。 如 果 不 是 寻找 Lily 的 朋友 ， 而 是 寻找 与 Lily 交 朋 友 的 
人 ， 就 不 得 不 执行 多 个 索引 来 完成 这 个 查找 任务 ; 每 个 节点 所 代表 的 人 都 可 能 把 Lily 当 
E 他 的 朋友 ， 这 样 查找 的 成 本 会 变 得 很 高 ， 找 到 Lily 的 朋友 的 成 本 为 O(log n)， 而 找到 
和 Lily 交 朋 友 的 人 的 代价 则 是 OGm log n)。 可 以 看 到 ， 当 改变 遍历 方向 时 ,查找 的 成 本 
就 可 能 变 得 很 大 。 索 引 查 找 在 小 型 网 络 中 是 可 行 的 , 但 对 于 大 型 网 络 图 的 查询 成 本 则 过 
于 高 晶 。 具 有 原生 图 处 理 能 力 的 图 数据 库 在 查询 时 不 是 使 用 索引 查询 来 实现 的 ， 而 是 使 
用 免 索 引 邻 接 来 确保 遍历 的 高 效 性 的 。 原 生 图 处 理 引 擎 索引 示意 图 如 图 8.4 所 示 ， 它 展示 


了 联系 是 如 何 消除 索引 查询 的 需求 的 。 


在 图 数据 库 中 ,可 以 以 很 小 的 成 本 双向 (从 尾部 向 头 部 和 从 头 部 向 尾部 ) 遍 历 联系 。 
在 图 8.4 中 ,如 果 使 用 图 寻找 Lily 的 朋友 ,可 以 简单 地 通过 查找 由 她 指向 外 的 联系 
Friend， 这 样 每 次 遍历 的 成 本 为 0(1)， 而 要 寻找 和 Lily 交 朋 友 的 人 ,也 只 需要 查找 指 
向 她 的 Friend 联系 的 来 源 即 可 ， 这 样 每 次 遍历 的 成 本 也 是 O(1)。 鉴 于 这 些 成 本 的 计 
算 ， 图 遍历 的 效率 是 非常 高 的 。 使 用 免 索引 邻接 ， 双 向 连接 可 以 有 效 地 预计 算 ， 并 作 
为 联系 存储 在 数据 库 中 。 不 过 这 种 高 效率 的 遍历 仅 在 以 此 为 目的 架构 设计 上 才能 真正 

2. 原生 图 存储 

如 果 免 索引 邻接 是 高 性 能 遍历 、 查 询 和 写 和 的 关键 ,那么 图 数据 库 设计 的 一 个 关键 
方面 则 是 存储 图 的 方式 。 高 效 的、 本 机 化 的 图 存储 式 格式 支持 任意 图 算法 的 快速 遍历 ， 
这 是 使 用 图 数据 库 的 重要 原因 。 

Neodj 将 图 数据 存储 在 不 同 的 存储 文件 中 。 每 个 存储 文件 包含 图 的 某 一 特定 部 分 的 数 
据 ， 例 如 ， 节 点 、 联 系 、 标 签 和 属性 都 各 自 独 立 存 储 。 这 种 存储 职能 的 划分 特别 是 图 结 
构 与 属性 数据 的 分 离 大 大 促进 了 图 遍历 性 能 的 提升 ， 有 时 用 户 眼 里 的 图 和 存储 的 实际 数 
据 的 记录 可 能 是 完全 不 同 的 结构 。 如 图 8. 5 所 示 为 Neo4j 的 体系 结构 。 
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图 8.4 原生 图 处 理 引 擎 索引 示意 图 
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图 8.5 Neo4j 的 体系 结构 


节点 存储 文件 用 来 存储 节点 的 记录 。 图 中 创建 的 节点 最 终 会 归结 为 节点 存储 ， 其 物 
理 文件 是 “neostore. nodestore. db”。 节 点 存储 区 是 大 小 固定 的 记录 存储 ， 每 个 记录 长 度 
为 9 字 节 。 通 过 大 小 固定 的 记录 可 以 快速 查询 存储 文件 中 的 节点 ， 这 种 存储 格式 使 得 数据 
库 可 以 直接 计算 一 个 记录 的 位 置 ， 其 执行 的 成 本 小 。 

一 个 节点 记录 的 第 一 个 字 节 表示 “是 否 在 使 用 ”的 含义 。 它 告诉 数据 库 ， 该 记录 目 
前 是 被 用 于 存储 节点 ， 还 是 可 回收 用 于 表示 一 个 新 的 节点 。 接 下 来 的 4 字 节 表示 关联 到 该 
节点 的 第 一 个 联系 ， 随 后 4 字 节 表示 该 节点 的 第 一 个 属性 的 ID。 标 签 的 5 字 节 指向 该 节 
点 的 标签 存储 (如 果 标 签 很 少 的 话 也 可 以 内 联 到 节点 中 2 最 后 的 字 节 是 标志 保留 位 。 这 
样 一 个 标志 是 用 来 标识 紧密 连接 节点 的 ， 而 省 下 的 空间 为 将 来 预 留 。 节 点 记录 是 几 个 指 
向 联系 和 属性 列表 的 指针 。 

相应 的 ， 联 系 被 存储 于 联系 存储 文件 中 , 物理 文件 是 neostore. relationshipstore. db。 
像 节 点 存储 一 样 。 联 系 存储 区 的 记录 的 大 小 也 是 固定 的 。 每 个 联系 记录 包含 联系 的 起 始 
点 ID 和 结束 节点 ID、 联 系 类 型 的 指针 (存储 在 联系 类 型 存储 区 )、 起 始 节 点 和 结束 节点 的 
上 一 个 联系 和 下 一 个 联系 以 及 一 个 指示 当前 记录 是 否 位 于 联系 链 最 前 面 。 节 点 存储 文件 
和 联系 存储 文件 都 只 关注 图 的 存储 结构 而 非 属性 数据 ,这 两 种 存储 文件 都 使 用 固定 大 小 
的 记录 ,这 样 存储 文件 内 任何 记录 的 位 置 都 可 以 根据 ID 快速 计算 出 来 这些 都 是 图 数据 
库 高 性 能 遍历 的 关键 技术 。 图 在 Neo4j 中 物流 存储 的 方式 如 图 8. 6 所 示 。 

在 图 8.6 中 可 以 看 到 各 种 存储 文件 的 交互 。 两 个 节点 记录 都 包含 一 个 指向 该 节点 的 第 
一 个 属性 的 指针 和 联系 链 中 第 一 个 联系 的 指针 。 要 读 取 节点 的 属性 ， 从 指向 第 一 个 属性 
的 指针 开始 遍历 单 向 链表 结构 。 要 找到 一 个 节点 的 联系 ， 从 指向 第 一 个 联系 (在 示例 中 为 
Like 联系 ) 的 节点 联系 指针 开始 ， 顺 着 特定 节点 的 联系 的 双向 链表 寻找 ( 即 起 始 节 点 的 双 
向 链表 或 结束 节点 的 双向 链表 )， 直 至 找到 相关 的 联系 。 一 旦 找到 了 想 要 的 联系 记录 ， 便 
可 以 使 用 和 寻找 节点 属性 一 样 的 单 向 链表 结构 读 取 这 种 联系 的 属性 ， 也 可 以 使 用 联系 关 
联 的 起 始 节 点 ID 和 结束 节点 ID 检查 它们 的 节点 记录 。 用 这 些 ID 乘 以 节点 记录 的 大 小 ， 
就 可 以 立即 算出 每 个 节点 在 节点 存储 文件 中 的 偏 移 量 。 通 过 固定 大 小 的 记录 和 类 指针 记 
录 ID， 通 过 数据 结构 周围 跟随 指针 ,可 以 简单 实现 高 速 遍历 。 要 遍历 一 个 节点 到 男 一 个 
节点 特定 的 联系 ,数据 库 只 需 执行 几 个 低 成 本 的 ID 计算 。 

[5) 
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起 始 节点 及 结束 节点 的 
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起 始 节点 及 结束 节 
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图 8.6 图 在 Neo4j 中 物流 存储 的 方式 


属性 存储 中 记录 的 物理 存储 放置 在 文件 neostore. propertystore. bd 中 。 与 节点 存储 和 联系 
存储 一 样 ， 属 性 记录 也 是 有 固定 大 小 的 。 每 个 属性 记录 包括 4 个 属性 块 和 属性 链 中 下 一 个 属性 
的 ID。 特 别 注意 ， 属 性 持 有 的 链表 是 单 向 的 ， 而 联系 链 是 双向 的 。 每 个 属性 记录 占据 1 一 4 个 
属性 块 ， 也 就 是 说 一 个 属性 记录 最 多 可 以 容纳 4 个 属性 。 一 个 属性 记录 包含 属性 类 型 以 及 属性 
索引 文件 ， 属 性 索引 文件 存储 属性 名 称 ; 对 于 每 个 属性 值 ， 记 录 包 含 一 个 指向 动态 存储 记录 的 
指针 或 内 联 值 。 动 态 存 储 允 许 存储 大 属性 值 ， 分 为 动态 字符 串 存储 和 动态 数组 存储 。 

3. 用 于 编程 的 API 
开发 人 员 通 过 查询 语言 操作 数据 库 , 这 种 语言 可 以 是 命令 式 的 也 可 以 是 声明 式 的 。 
Neodj 的 原生 查询 语言 是 Cypher， 这 是 一 种 易学 易 用 的 语言 。 还 有 其 他 的 API， 这 取决 于 
执行 任务 的 目的 “查询 图 数据 库 主要 有 核心 API、 遍 历 框架 及 Cypher 等 几 种 方法 。 这 几 
种 方法 都 有 自己 的 适用 范围 和 特点 。 
核心 API 可 以 允许 开发 人 员 对 他 们 的 查询 进行 微调 ， 以 便 与 底层 图 有 更 好 的 联系 。 
一 个 用 心 编写 的 核心 API 查询 往往 比 其 他 方法 速度 更 快 。 但 它 也 存在 缺点 ， 这 样 的 查询 
需要 写 得 很 具体 ， 对 开发 人 员 的 技能 要 求 较 高 。 此 外 ,与 底层 图 密切 的 联系 使 得 它们 的 
结构 紧密 耦合 ， 一 且 图 结构 发 生变 化 ， 这 些 查询 也 会 被 破坏 。Cypher 则 可 以 容忍 结构 的 
变化 ,长 度 可 变 的 路 径 减 轻 了 结构 变化 对 其 的 影响 。 遍 历 框架 比 核心 API 耦合 性 好 ， 也 
不 是 很 烦琐 ,因此 相对 于 核心 API， 使 用 遍历 框架 编写 同等 功能 的 结果 查询 比 使 用 核心 
API 更 轻松 。 但 由 于 遍历 框架 是 一 个 通用 的 框架 ， 因 此 它 的 灵活 性 要 差 些 ， 没 有 核心 API 
查询 执行 效果 好 。 实 际 中 可 以 根据 对 性 能 的 要 求 来 选择 查询 方法 ， 遍历 框架 具有 高 抽象 、 
低 耦 合 的 特性 ， 核 心 API 是 底层 编程 接口 ， 耦 合 性 高 。 


图 数据 库 的 应 用 


图 数据 库 在 社交 网 络 、 实 时 推荐 、 征 信 系 统 、 人 工 智 能 等 领域 有 着 广泛 的 应 用 。 随 
着 数据 存储 技术 的 飞速 发 展 ， 图 数据 库 作为 解决 多 变 的 应 用 场景 中 的 关系 型 数据 库 具 有 
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很 好 的 灵活 性 和 高 效 性 。 下 面 以 恒 昌 企业 为 例 ， 介 绍 图 数据 库 的 应 用 情况 。 

图 数据 库 ， 作 为 恒 昌 知识 图 谱 的 底层 存储 方案 ， 是 多 方 数据 的 知识 融合 及 提炼 后 进 
行 汇聚 的 场所 ， 对 恒 昌 丰富 的 产品 线 与 数据 技术 间 的 承 转 起 着 重要 作用 。 人 恒 昌 广泛 使 用 
Neo4j 作为 知识 图 谱 底 层 图 数据 持久 化 的 方案 ,并 基于 其 优异 的 事务 能 力 对 业务 团队 提供 
实时 的 数据 查询 能 力 ， 除 此 外 还 在 Titan、Gaffer 等 分 布 式 图 数据 库 或 计算 引擎 上 有 着 深 
入 的 研究 。Neo4j 是 目前 最 成 熟 的 图 数据 库 之 一 ， 也 是 最 流行 的 。 它 无 论 在 事务 、 性 能 还 
是 安全 性 、 可 靠 性 等 角度 ， 都 能 比拟 现存 最 优秀 的 数据 库 系统 ， 有 些 特 性 甚至 更 为 优秀 
如 图 8.7 所 示 为 恒 昌 应 用 Neo4j 的 典型 物理 存储 结构 图 ， 显 示 了 它 在 所 有 图 数据 库 系统 中 
的 优势 。 
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起 始 节点 及 结束 节点 的 



































姓名 : 徐 某 起 始 节点 及 结束 节 


点 的 下 一 个 联系 


图 8.7 恒 昌 应 用 Neo4i 的 虎 型 物理 存储 结构 图 


将 上 面 的 案例 简单 地 扩展 一 下 ， 从 一 个 借款 客户 出 发 ， 提 取 其 周边 三 层 关 系 以 内 的 
联系 人 在 恒 昌 是 否 有 借款 以 及 具体 的 借款 状态 是 非常 有 意义 的 ， 因 为 从 社会 网 络 分 析 的 
角度 来 讲 ， 这 些 信息 可 以 一 定 程度 上 描绘 出 该 借款 人 的 信用 或 欺诈 风险 。 目 前 此 类 操作 
可 以 做 到 毫秒 级 响应 (未 优化 的 测试 数据 约 为 25ms)， 这 正 是 由 于 Neodj 中 每 一 层 关系 都 
是 物理 意义 上 的 指针 连接 ; 相同 的 操作 ,在 关系 型 数据 库 里 面 ,需要 基于 联系 人 关系 表 
分 别 进行 一 级 、 两 级 、 三 级 表 关 联 操作 ， 并 将 取得 的 结果 合并 、 排 重 ， 这 组 操作 即使 进 
行 了 有 针对 性 的 优化 ， 仍 旧 非 常 耗 时 。 

从 数据 规模 来 看 ， 目 前 恒 昌 的 图 数据 库 已 经 融合 了 多 方 数据 ,包括 业 务 系统 主要 产 
品 线 各 阶段 的 数据 、 用 户 授 权 数据 等 。 这 些 数据 形成 的 实体 规模 已 过 亿 ， 所 形成 的 关系 
更 是 多 达 数 亿 。 随 着 恒 昌 产品 越 来 越 丰富 ， 以 及 用 户 对 恒 昌 平台 越 来 越 信任 ， 这 个 数据 
还 在 持续 高 速 增长 。 从 数据 产品 来 看 ， 基 于 图 数据 库 开 发 的 知识 图 谱 正在 发 挥 着 越 来 越 
大 的 作用 ， 目 前 已 经 上 线 或 待 上 线 的 产品 覆盖 了 客户 失 联 修复 、 反 欺诈 规则 引擎 、 坎 诈 
团伙 调查 等 方向 ， 近 期 还 会 覆盖 风险 预警 等 方向 。 


1. 其 诈 团伙 调查 
数据 科学 领域 有 句 名 言 叫 “一 图 胜 千 言 >。 图 数据 库 的 优势 在 于 它 能 通过 “实体 ”和 




















“关系 ”这 种 简单 直观 的 描述 方法 来 表述 现实 世界 中 错综复杂 的 关联 关系 。 然 而 ， 图 数据 
库 呈 现 信息 的 方式 并 不 限于 简单 的 节点 和 边 。 它 可 以 提供 逐 层 挖掘 的 方式 ， 引 导 用 户 逐 
步 深入 分 析 各 种 关系 ; 还 可 以 快速 及 时 地 呈现 实体 之 间 最 新 的 关系 变化 ， 为 用 户 积累 新 
鲜 的 知识 和 经 验 ; 也 可 以 清晰 地 呈现 复杂 关系 间 的 联络 线索 ， 为 用 户 判断 事件 来 龙 去 脉 提 
供 有 效 引 导 。 此 处 ， 仍 然 以 恒 昌 的 客户 为 例 ， 客 户 徐 某 的 关系 图 如 图 8. 8 所 示 ( 因 数据 安全 
的 原因 ， 不 给 出 全 名 ， 并 对 原 有 图 结构 进行 了 简化 )， 如 果 仅 考虑 该 客户 自己 填写 的 信息 ， 
虽然 也 能 看 到 维度 关联 信息 ， 但 完全 看 不 出 该 结构 会 有 什么 问题 ， 也 无 法 进行 深入 调查 。 





单位 电话 





图 8.8 客户 徐 某 的 关系 图 


当 关 联 信息 得 到 补充 (相对 于 原来 的 进 件 联系 人 ,补充 了 同事 、 邻 居 、 亲 属 、 朋 友 等 
关系 ,还 基于 用 户 授权 数据 进行 了 深度 扩展 ) 后 ， 暂 不 考虑 物品 (如 手机 号 、 银 行 账号 、 
地 址 等 )， 仅 考虑 自然 人 ， 获 取 徐 某 二 度 关 系 内 同时 在 恒 昌 有 借款 行为 的 用 户 ， 得 到 客户 
徐 某 补充 关系 图 ， 如 图 8. 9 所 示 ， 该 图 每 一 个 圆 都 代表 一 位 恒 昌 客户 ， 图 顶部 的 状态 说 明 
了 客户 当前 所 处 状态 。 仔 细 观 察 左 下 角 以 徐 某 为 中 心 的 四 个 客户 (已 用 黑 方 框 标 出 )， 他 
们 刚好 是 所 呈现 图 的 最 大 完全 子 图 ,符合 图 论 中 团 的 定义 。 再 看 除 徐 某 外 的 三 个 客户 ， 
两 个 逾期 ， 一 个 被 拒 。 如 果 徐 某 是 新 人 图 数据 库 的 借款 人 ， 从 数学 模型 的 角度 看 ， 几 乎 
可 以 直接 判定 拒绝 。 因 为 符合 这 种 状态 的 图 ， 是 欺诈 团伙 或 是 组 团 代办 的 概率 非常 大 。 

到 这 时 工作 并 未 完结 ， 如 果 有 需要 ， 可 以 基于 图 中 的 关系 尝试 与 几 位 客户 联系 以 进 
行 深入 背景 调查 证 实 , 调查 的 结论 可 以 融合 到 图 数据 库 中 形成 数据 闭环 ， 直 接 改善 后 续 
自动 化 预警 的 结果 。 









































图 8. 9 和 客户 徐 某 补充 关系 图 


2. 风险 事件 预警 

尽管 欺诈 团伙 调查 能 取得 很 不 错 的 效果 ,但 因为 其 可 能 需要 调查 员 随 时 联系 客户 或 
其 周边 人 群 以 验证 调查 员 的 推论 ， 因 此 整体 成 本 还 是 相当 高 的 。 为 了 解决 这 个 问题 ， 基 
于 模型 的 风险 事件 预期 就 应 声 而 出 了 。 如 果 说 欺诈 团伙 调查 是 主动 出 击 ， 则 风险 事件 预 
警 更 像 是 被 动 防御 : 它 随 时 守护 着 恒 昌 的 客户 群体 ， 一旦 有 判定 的 风险 事件 就 会 警告 相 
关 方 ， 必 要 的 时 候 可 以 自动 向 调查 员 提 请 欺诈 团伙 调查 。 

风险 事件 预警 会 通过 模型 生成 一 组 类 似 上 述 欺 诈 团 伙 调 查 中 出 现 的 场景 ， 但 给 每 一 
个 场景 一 个 相对 低 一 些 的 初始 置信 度 ， 后 期 通过 不 断 地 反馈 迭代 来 优化 置信 度 。 当 一 个 
新 客户 到 来 后 ， 首 先 会 将 其 信息 整合 到 知识 图 谱 中 。 紧 接着 ， 该 客户 会 被 规则 引擎 捕捉 
到 ， 规 则 引擎 会 基于 客户 信息 从 知识 图 谱 中 提取 一 组 特征 ， 由 该 特征 决定 了 引擎 首先 会 
触发 哪些 场景 ， 而 这 些 场景 的 结论 可 能 导致 规则 引擎 又 触发 另外 一 组 场景 。 在 满足 特定 
条 件 下 ,最 终 输 出 结果 ,如 果 有 相应 的 风险 事件 被 触发 ， 信 息 就 会 送 达 相关 团队 。 

风险 事件 预警 最 有 意思 的 地 方 在 于 ,一 个 新 客户 的 到 来 ， 可 能 会 导致 一 个 老 客户 的 
风险 事件 被 触发 。 这 主要 是 因为 新 客户 融入 知识 图 谱 中 时 带 进 的 新 数据 可 能 会 让 图 谱 中 
的 某 些 子 网 的 结构 发 生 彻底 改变 。 目 前 采用 一 组 启发 式 的 算法 来 扩展 新 进 客 户 的 影响 ， 
效果 显著 。 这 同时 也 意味 着 ,风险 事件 预警 并 非 只 针对 贷 前 风险 事件 ， 还 会 对 贷 后 风险 
事件 作为 预警 。 例 如 ,触发 了 某 个 老 客户 的 潜在 逾期 风险 时 ,就 可 以 引导 相关 团队 提前 
关注 ,在 情况 恶化 前 及 时 止 损 。 具 体 的 技术 细节 此 处 不 再 次 述 。 

3. 失 联 信息 修复 

众所周知 ， 互 联网 金融 的 核心 是 风险 控制 。 无 论 属于 何 种 风险 ,终极 的 形态 就 
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“人 间 蒸 发 "， 行 话 即 “ 客 户 失 联 "”。 首 先 ， 是 要 尽量 避免 “ 失 联 ” 的 。 如 果 客 户 奔 着 欺诈 
而 来 ， 那 几乎 也 注定 了 后 续 无 法 联系 上 ， 姑且 称 此 类 失 联 为 “第 一 类 失 联 "”。 其 次 , “ 失 
联 ” 是 无 法 完全 避免 的 ， 主 要 是 因为 失 联 的 “成 本 ”很 低 ， 很 多 客户 受到 一 点 挫折 就 可 
能 游 走 在 “消失 ”与 “不 消失 ”的 边缘 。 即 使 客户 自身 “消失 ”的 意愿 不 高 ， 换 个 手机 
号 、 搬 个 家 、 换 个 公司 都 有 可 能 导致 客户 及 其 联系 人 完全 联系 不 上 ， 称 此 类 为 “第 二 类 
失 联 ”"。 原 则 上 ， 如 果 反 欺诈 做 得 好 ,， “第 一 类 失 联 ”是 不 应 该 出 现 的 ; 而 对 于 第 二 类 失 
联 ， 则 恰恰 是 图 数据 库 大 展 身手 之 处 。 
将 图 数据 库 应 用 于 失 联 修复 是 非常 直接 而 自然 的 ， 因 为 图 数据 库 的 特点 就 是 在 数据 丰富 
的 条 件 下 ， 能 非常 方便 地 对 各 类 关系 进行 提取 。 恒 昌 的 失 联 修复 项 目 结合 了 知识 图 谱 ( 基 于 
图 数据 库 ) 及 传统 的 机 器 学 习 技术 ,前 者 作为 修复 策略 的 具体 联系 方式 来 源 ， 后 者 作为 策略 
有 效 性 的 评估 依据 。 目 前 能 做 到 失 联 客户 实时 修复 ， 修 复 专员 完成 具体 操作 后 会 有 相应 的 备 
注 及 日 志 信息 ， 这 些 数据 会 被 实时 收集 用 于 改进 修复 策略 。 本 文 仅 拿 众多 策略 中 较为 容易 理 
解 的 一 条 来 略 作 说 明 ， 这 条 策略 主要 从 图 数据 库 中 提取 ， 和 失 联 客户 处 于 同一 公司 ， 且 当前 
住址 与 失 联 客户 接近 的 用 户 作 为 修复 中 间 人 。 虽 然 是 一 条 简单 的 策略 ， 但 深入 考虑 一 下 会 发 
机 
小 ， 这 样 的 话 修复 中 间 人 不 见得 认识 失 联 人 。 因 此 这 条 简单 的 策略 背后 也 会 有 一 个 启发 式 算 
法 ,通过 公司 /工厂 的 规模 来 调整 当前 住址 需要 匹配 的 粒度 (例如 。， 总 到 入 到 给 。 光 趾 具体 
到 门牌 相 邻 ;。 更 进一步 地 ， 如 果 在 此 基础 之 上 ,修复 中 间 人 和 失 联 人 有 过 通话 记录 往来 或 
是 有 通讯 录 关联 (事实 上 远 比 这 个 复杂 ) 就 大 幅 增加 了 该 修复 中 间 人 的 置信 度 ， 甚 至 可 以 基 
于 此 条 件 在 图 数据 库 查询 过 程 中 提前 中 正 ， 直接 返回 相关 结论 。 以 上 操作 基于 图 数据 库 可 以 
将 数据 一 次 取出 再 进行 处 理 ， 基 本 是 毫秒 级 响应 ， 如 果 触 发 了 提前 中 止 ， 耗 时 可 能 更 短 ; 但 
如 果 基 于 关系 型 数据 库 , 首先 会 涉及 多 张 业务 表 的 检索 、 关 联 ; 其 次 ， 还 可 能 按照 初次 处 理 
结果 多 次 连接 数据 库 。 造 成 数据 库 资源 的 浪费 。 
(案例 来 源 : https: //blog. csdn. net/ TgqDT3gGaMdkHasLZv/article/ details/ 78199666) 
2017. 10. 10 





























8.2 基于 Flink 的 大 数据 处 理 技术 


Flink 是 为 分 布 式 、 高 性 能 、 随 时 可 用 以 及 准确 的 流 处 理应 用 程序 打造 的 开源 流 处 理 
框架 。Flink 不 仅 能 提供 同时 支持 高 春 吐 和 Exactly- Once( 流 式 系统 中 的 语义 ， 指 严格 地 ， 
有 且 仅 处 理 一 次 ) 语 义 的 实时 计算 ,还 可 以 提供 批 数 据 处 理 。Flink 的 优势 是 它 拥 有 诸多 
重要 的 流 式 计算 功能 ， 其 他 项 目 为 了 实现 这 些 功 能 都 不 得 不 付出 代价 ， 例 如 ，Storm 实现 
了 低 延 迟 ， 但 做 不 到 高 香 吐 ， 也 不 能 在 故障 发 生 时 准确 地 处 理 计算 状态 ，Spark Stream- 
ing 通过 采用 微 批 处 理 方法 实现 了 高 吞吐 和 容错 性 ,但 是 牺牲 了 低 延 迟 和 实时 处 理 能 力 ， 
也 不 能 使 窗口 与 自然 时 间 匹 配 。 且 表现 力 欠 佳 。 而 Flink 这 一 数据 处 理 器 避免 了 上 述 紫 
端 ， 拥有 所 需 的 诸多 功能 ， 可 以 按照 连续 事件 高 效 地 处 理 数据 。 


Flink 是 大 数据 处 理 领 域 的 新 星 ， 它 不 同 于 其 他 大 数据 项 目的 诸多 特性 吸引 了 越 来 越 











多 人 的 关注 。Flink 核心 是 一 个 流 式 的 数据 流 执行 引擎 ， 它 针对 数据 流 的 分 布 式 计算 提供 
了 数据 分 布 、 数 据 通信 以 及 容错 机 制 等 功能 。 基 于 数据 流 执行 引擎 ，Flink 提供 了 诸多 更 
高 抽象 层 的 API 以 便 用 户 编写 分 布 式 任务 。Flink 将 数据 描述 成 由 一 组 连续 的 元 素 构 成 的 
数据 流 ， 以 事件 驱动 的 方式 对 每 个 元 素 执行 用 户 自 定 义 的 计算 逻辑 ， 并 产生 新 的 数据 流 。 
不 过 Flink 通过 对 State 的 支持 允许 用 户 可 以 更 方便 地 实现 有 状态 的 计算 。 通 过 负责 State 
的 备份 、 容 错 和 分 发 ，Flink 可 以 极 大 地 减轻 用 户 开 发 的 负担 。 
Flink 对 计算 任务 中 的 时 间 概 念 进行 了 更 好 的 定义 。Flink 中 的 时 间 分 为 两 种 : 一 种 
是 处 理 时 间 (Processing Time); 另 一 种 是 事件 时 间 (Event Time)。 处 理 时 间 即 服务 器 本 
地 时 钟 的 时 间 ， 而 事件 时 间 则 指数 据 中 的 真实 时 间 。 事 件 时 钟 在 实际 应 用 中 有 着 非常 重 
要 的 意义 。 在 以 往 流 计算 系统 中 需要 用 户 自己 去 维护 事件 时 间 的 事件 ; 而 Flink 则 将 这 些 
工作 抽取 了 出 来 ， 能 从 乱 序 到 达 的 数据 中 正确 地 推断 运行 时 的 事件 时 刻 ， 人 允许 使 用 事件 
时 间 的 用 户 程序 能 像 处 理 时 间 一 样 触 发 指定 时 刻 的 计算 任务 。 























图 8.10 Flink 技术 栈 的 核心 组 成 部 分 


Flink 技术 栈 的 核心 组 成 部 分 如 图 8. 10 所 示 ， 其 中 Flink Runtime 执行 
引擎 是 Flink 的 核心 计算 构造 ， 它 是 一 个 分 布 式 系统 ， 能 够 接收 数据 流程 序 
并 在 一 台 或 多 台 机 器 上 以 容错 方式 执行 。Flink Runtime 执行 引擎 可 以 作为 首 
YARN 的 应 用 程序 在 集群 上 运行 ， 也 可 以 在 Mesos 集群 上 运行 ， 还 可 以 在 【Enk 的 落 扩 
单机 上 运行 。 架构 实践 】 

Flink 分 别提 供 了 面向 流 处 理 的 接口 (DataStream API) 和 面向 批 处 理 的 接口 (DataSet 
API)。 因 此 ，Flink 既 可 以 完成 流 处 理 ， 也 可 以 完成 批 处 理 。Flink 支持 的 拓展 库 涉及 机 
器 学 习 (FlinkML)、 图 计算 (Gelly) 以 及 复合 事件 处 理 (CEP), 还 有 分 别针 对 流 处 理 和 批 
处 理 的 Table API。Flink 提供 了 封装 在 Runtime 执行 引擎 上 的 API， 以 帮助 用 户 更 方便 
地 生成 流 式 计算 程序 。 解 决 了 Flink Runtime 执行 引擎 中 程序 很 多 、 代 码 元 长 、 编 写 复杂 























的 问题 。Flink 提供 了 用 于 流 处 理 的 DataStream API 和 用 于 批 处 理 的 DataSet API。 尽 管 
Flink Runtime 执行 引擎 是 基于 流 处 理 的 ， 但 是 DataSet API 先 于 DataStream API 被 开发 
出 来 ， 这 是 因为 在 Flink 诞生 之 初 ， 工 业 领 域 对 其 无 限 流 处 理 的 需求 小 。DataStream API 
可 以 流畅 地 分 析 无 线 数 据 流 ， 并 且 可 以 用 Java 或 者 Scala 来 实现 。 开 发 人 员 需 要 基于 表示 
永 不 停止 的 分 布 式 数据 流 的 DataStream 数据 结构 来 开发 。 

Flink 的 分 布 式 特点 体现 在 它 能 够 在 很 多 台 机 器 上 运行 ， 它 将 大 型 的 计算 任务 分 成 许 
多 小 的 部 分 ， 每 个 机 器 执行 一 个 部 分 。 在 发 生机 器 故障 或 者 其 他 错误 时 ，Flink 能 够 自动 
地 确保 计算 持续 进行 ,或 者 在 修复 Bug、 进 行 版 本 升级 后 有 计划 地 再 执行 一 次 。Flink 本 
质 上 使 用 容错 性 数据 流 ， 这 使 得 开发 人 员 可 以 分 析 持续 生成 的 流 数据 。 

Flink 解决 了 许多 问题 例如， 保证 了 Exactly- Once 语义 和 基于 事件 时 间 的 数据 窗 
口 。 开 发 人 员 不 再 需要 解决 应 用 层 的 相关 问题 ， 这 降低 了 出 现 错误 的 概率 。Flink 使 应 用 
程序 在 生产 环境 中 具备 了 良好 的 性 能 。 


Flink 的 特性 FN 

Flink 的 特性 主要 有 3 个 ， 下 面 分 别 介 绍 。 

1. 统一 的 批 处 理 与 流 处 理 系统 

在 大 数据 处 理 领域 ， 批 处 理 任务 与 流 处 理 任务 一 般 被 认为 是 两 种 不 同 的 任务 。 一 般 
情况 下 ， 一 个 大 数据 项 目 只 能 处 理 其 中 一 种 任务 ， 例 如 Apache Storm、Apache Smaza 只 
支持 流 处 理 任务 ， 而 Aapche MapReduce、Apache Tez 和 “Apache Spark 只 支持 批 处 理 任 
务 。 而 Spark Streaming 是 Apache Spark 上 支持 流 处 理 任 务 的 子 系统 ，Spark Streaming 
采用 了 一 种 Micro- Batch 的 架构 ， 把 输入 的 数据 流 切 分 成 细 粒 度 的 Batch， 并 为 每 一 个 
Batch 数据 提交 一 个 批 处 理 的 Spark 任务 ， 所 以 .Spark Streaming 本 质 上 还 是 基于 Spar 
批 处 理 系 统 对 流 式 数据 进行 处 理 ， 这 和 Apache Storm、Apache Smaza 等 完全 流 式 的 数据 
处 理 方式 完全 不 同 。 通 过 其 灵活 的 执行 引擎 ，Flink 能 够 同时 支持 批 处 理 任务 与 流 处 理 
任务 。 
在 执行 引擎 这 一 层 ， 流 处 理 系统 与 批 处 理 系统 最 大 的 不 同 在 于 节点 间 的 数据 传输 方 
式 。 对 于 一 个 流 处 理 系统 ， 其 节点 间 数 据 传输 的 标准 模型 ， 当 一 条 数据 被 处 理 完成 后 ， 
序列 化 到 缓存 中 ， 然 后 立刻 通过 网 络 传输 到 下 一 个 节点 ， 由 下 一 个 节点 继续 处 理 。 而 对 
于 一 个 批 处 理 系统 ， 其 节点 间 数 据 传 输 的 标准 模型 : 当 一 条 数据 被 处 理 完 成 后 ， 序 列 化 
到 缓存 中 ， 并 不 会 立刻 通过 网 络 传输 到 下 一 个 节点 ， 当 缓存 写 满 ， 就 持久 化 到 本 地 硬盘 
上 ， 当 所 有 数据 都 被 处 理 完成 后 ， 才 开始 将 处 理 后 的 数据 通过 网 络 传输 到 下 一 个 节点 。 
这 两 种 数据 传输 模式 是 两 个 极端 ， 满 足 的 是 流 处 理 系统 对 低 延 迟 的 要 求 和 批 处 理 系 统 对 
高 吞吐 量 的 要 求 。Flink 同时 支持 这 两 种 数据 传输 模型 ， 它 的 执行 引擎 采用 了 一 种 十 分 灵 
活 的 方式 。Flink 以 固定 的 缓存 块 为 单位 进行 网 络 数据 传输 ， 用 户 可 以 通过 缓存 块 超时 值 
指定 缓存 块 的 传输 时 机 。 如 果 缓 存 块 的 超时 值 为 0， 则 Flink 的 数据 传输 方式 类 似 上 文 所 
提 到 流 处 理 系统 的 标准 模型 ， 此 时 系统 可 以 获得 最 低 的 处 理 延 迟 。 如 果 缓 存 块 的 超时 值 
为 无 限 大 ， 则 Flink 的 数据 传输 方式 类 似 上 文 所 提 到 批 处 理 系 统 的 标准 模型 ， 此 时 系统 可 
以 获得 最 高 的 吞吐 量 。 同 时 缓存 块 的 超时 值 也 可 以 设置 为 0 到 无 限 大 之 间 的 任意 值 。 缓 存 












































块 的 超时 间 值 越 小 ， 则 Flink 流 处 理 执行 引擎 的 数据 处 理 延 迟 越 低 ， 但 吞吐 量 也 会 降低 ; 
反之 亦 然 。 通 过 调整 缓存 块 的 超时 赣 值 用户 可 根据 需求 灵活 地 权衡 系统 延迟 和 吞吐 量 。 

在 统一 的 流 式 执行 引擎 基础 上 ，Flink 同时 支持 了 流 计算 和 批 处 理 ， 并 对 性 能 (延迟 、 
吞吐 量 等 ) 有 所 保障 。 相 对 于 其 他 原生 的 流 处 理 与 批 处 理 系统 ， 并 没有 因为 统一 执行 引擎 
而 受到 影响 ， 从 而 大 幅度 减轻 了 用 户 安 装 、 部 署 、 监 控 、 维 护 等 成 本 。 

2. 容错 机 制 

对 于 一 个 分 布 式 系统 来 说 ， 单 个 进程 或 是 节点 崩溃 导致 整个 工作 失败 是 时 常 发 生 的 事 ， 在 
异常 发 生 时 不 会 丢失 用 户 数据 并 能 自动 恢复 才 是 分 布 式 系统 必须 支持 的 特性 之 一 。 批 处 理 系统 
比较 容易 实现 容错 机 制 ， 由 于 文件 可 以 重复 访问 ， 当 某 个 任务 失败 后 ， 重 启 该 任务 即 可 。 但 是 
到 了 流 处 理 系统 ， 由 于 数据 源 是 无 限 的 数据 流 ， 导致 一 个 流 处 理 任 务 需 要 执行 很 入， 将 所 有 数 
据 缓 存 或 是 持久 化 ， 留 待 以 后 重复 访问 基本 上 是 不 可 行 的 。Flink 基于 分 布 式 快照 与 可 部 分 重 
发 的 数据 源 实现 了 容错 。 用 户 可 自 定义 对 整个 工作 进行 快照 的 时 间 间 隔 。 当 任务 失败 时 ，Fli 
会 将 整个 工作 恢复 到 最 近 一 次 快照 ， 并 从 数据 源 重 发 快照 后 的 数据 。Flink 的 分 布 式 快照 实 
借鉴 了 Chandy 和 Lamport 在 1985 年 发 表 的 一 篇 关于 分 布 式 快照 的 论文 ， 其 主要 思想 如 下 : 按 
照 用 户 自 定义 的 分 布 式 快照 间隔 时 间 ，Flink 会 定时 在 所 有 数据 源 中 插入 一 种 特殊 的 快照 标记 
消息 ， 这 些 快照 标记 消息 和 其 他 消息 一 样 在 DAG- 中 流动 ,但 是 不 会 被 用 户 定义 的 业务 逻辑 所 
处 理 ， 每 一 个 快照 标记 消息 都 将 其 所 在 的 数据 流 分 成 两 部 分 : 本 次 快照 数据 和 下 次 快照 数据 。 
Flink 包含 快照 标记 消息 的 消息 流 如 图 8:11 所 示 。 
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图 8.11 Flink 包含 快照 标记 消息 的 消息 流 


快照 标记 消息 沿 着 DAG 流 经 各 个 操作 符 ， 当 操作 符 处 理 到 快照 标记 消息 时 ， 会 对 自 
己 的 状态 进行 快照 并 存储 起 来 。 当 一 个 操作 符 有 多 个 输入 的 时 候 ，Flink 会 将 先 抵达 的 快 
照 标记 消息 及 之 后 的 消息 缓存 起 来 ， 当 所 有 的 输入 中 对 应 该 次 快照 的 快照 标记 消息 全 部 
抵达 后 ， 操 作 符 对 自己 的 状态 快照 并 存储 ， 随 后 处 理 所 有 快照 标记 消息 之 后 的 已 缓存 消 
息 。 操 作 符 对 自己 的 状态 快照 并 存储 可 以 是 异步 与 增 量 的 操作 ， 并 不 需要 阻塞 消息 的 处 
理 。 当 所 有 的 Data Sink( 终 点 操作 符 ) 都 收 到 快照 标记 信息 并 对 自己 的 状态 快照 和 存储 后 ， 
整个 分 布 式 快照 就 完成 了 ,同时 通知 数据 源 释 放 该 快照 标记 消息 之 前 的 所 有 消息 。 若 之 
后 发 生 节点 骨 溃 等 异常 情况 时 ， 只 需要 恢复 之 前 存储 的 分 布 式 快照 状态 ， 并 从 数据 沁 
发 该 快照 以 后 的 消息 就 可 以 了 。 

Exactly- Once 是 流 处 理 系统 需要 支持 的 一 个 非常 重要 的 特性 ， 它 保证 每 一 条 消息 只 

















被 流 处 理 系统 处 理 一 次 ,许多 流 处 理 任 务 的 业务 逻辑 都 依赖 于 Exactly- Once 特性 。 相 对 
于 AtrLeastr Once( 至 少 一 次 ， 若 算 子 处 理事 件 失败 ， 会 再 次 尝试 ， 直 至 有 一 次 成 功 ) 或 
At- Mostr Once( 最 多 一 次 ， 若 算 子 处 理事 件 失 败 ， 将 不 再 尝试 ) ，Exactly- Once 特性 对 流 
处 理 系统 的 要 求 更 为 严格 ， 实 现 也 更 加 困难 。Flink 基于 分 布 式 快照 实现 了 Exactly- Once 特 
性 。 相 对 于 其 他 流 处 理 系统 的 容错 方案 ，Flink 基于 分 布 式 快照 的 方案 在 功能 和 性 能 方面 都 
具有 很 多 优点 ， 包 括 低 延 迟 等 。 由 于 操作 符 状态 的 存储 可 以 异步 ， 因 此 进行 快照 的 过 程 基本 
上 不 会 阻塞 消息 的 处 理 ， 不 会 对 消息 延迟 产生 负面 影响 。 高 乔 吐 量 方面 ， 当 操作 符 状态 较 少 
时 ， 对 吞吐 量 基本 没有 影响 ， 当 操作 符 状 态 较 多 时 ， 相 对 于 其 他 的 容错 机 制 ， 分 布 式 快 照 的 
时 间 间 隔 是 用 户 自 定义 的 ， 所 以 ,用 户 可 以 权衡 错误 恢复 时 间 和 吞吐 量 要 求 来 调整 分 布 式 快 
照 的 时 间 间 隔 。 与 业务 逻辑 的 隔离 ，Flink 的 分 布 式 快 照 机 制 与 用 户 的 业务 逻辑 是 完全 隔离 
的 ， 用 户 的 业务 逻辑 不 会 依赖 或 是 对 分 布 式 快照 产生 任何 影响 。 错 误 恢 复 代 价 ， 分 布 式 快照 
的 时 间 间 隔 越 短 ， 错 误 恢复 的 时 间 越 少 ， 与 吞吐 量 负 相关 。 
3. 定制 的 序列 化 工具 


分 布 式 计算 框架 可 以 使 用 定制 序列 化 工具 的 前 提 : 待 处 理 数 据 流通 常 是 同一 类 型 。 
由 于 数据 集 对 象 的 类 型 固定 ， 从 而 可 以 只 保存 一 份 对 象 Schema 信息 ， 节 省 大 量 的 存储 空 
间 。 同 时 ， 对 于 固定 大 小 的 类 型 ， 也 可 通过 固定 的 偏 移 位 置 存 取 。 在 需要 访问 某 个 对 象 
成 员 变 量 时 ， 通 过 定制 的 序列 化 工具 ， 并 不 需要 反 序列 化 整个 Java 对 象 ， 而 是 直接 通过 
偏 移 量 ， 从 而 只 需要 反 序列 化 特定 的 对 象 成 员 变量 。 如 果 对 象 的 成 员 变量 较 多 时 ， 能够 
大 大 减少 Java 对 象 的 创建 成 本 ,以 及 内 存 数据 的 复制 量 。Flink 数据 集 都 支持 任意 Java 
或 是 Scala 类 型 ， 通过 自动 生成 定制 序列 化 工具 ， 既 保证 了 API 接口 对 用 户 友 好 ， 也 达到 
了 和 Hadoop 类 似 的 序列 化 效率 。 

Flink 对 数据 集 的 类 型 信息 进行 分 析 ， 然 后 自动 生成 定制 的 序列 化 工具 类 。Flink 支 
持 任意 的 Java 或 是 Scala 类 型 ,通过 Java Reflection 框架 分 析 基 于 Java 的 Flink 程序 
UDF 的 返回 类 型 的 类 型 信息 ,通过 Scala Compiler 分 析 基 于 Scala 的 Flink 程序 UDF 的 
返回 类 型 的 类 型 信息 。 类 型 信息 由 TypeInformation 类 表示 ,这 个 类 有 诸多 具体 实现 类 ， 
表 8-1 列 出 了 七 种 序列 类 型 。 











表 8-1 七 种 序列 类 型 





























类 型 序列 类 型 
第 一 种 BasicTypelnfo 任意 Java 基本 类 型 ( 装 包 或 未 装 包 ) 和 String 类 型 
第 二 种 BasicArrayTypelnfo 任意 Java 基本 类 型 数组 ( 装 包 或 未 装 包 ) 和 String 数组 
第 三 种 WritableTypelnfo 任意 Hadoop 的 Writable 接口 的 实现 类 
第 四 种 TupleTypelnfo 任意 的 Flink Tuple 类 型 (支持 Tuplel to Tuple25) 
第 五 种 Flink tuples 是 固定 长 度 和 固定 类 型 的 Java Tuple 实现 
第 六 种 CaseClassTypeInfo 任意 的 ScalaCaseClass( 包 括 Scala Tuples) 
PojoTypelInfo 任意 的 Pojo(Java or Scala), 例如 Java 对 象 的 所 有 成 员 变量 ， 要 么 
第 七 种 是 Public 修饰 符 定 义 ， 要 么 有 Getter/Setter 方法 。GenericTypelnfo 任意 的 无 法 匹 
配 之 前 几 种 类 型 的 类 











此 外 ， 对 于 可 被 用 作 Key 的 类 型 ，Flink 还 同时 自动 生成 TypeComparator ， 用 来 辅助 序 
列 化 后 的 二 进 制 数 据 直 接 进 行 Compare、Hash 等 操作 。 对 于 Tuple 、CaseClass、Pojo 等 组 合 
类 型 ，Flink 自动 生成 的 TypeSerializer 、TypeComparator 同样 是 组 合 的 ， 并 把 其 成 员 的 序列 
化 / 反 序 列 化 代理 给 其 成 员 对 应 的 TypeSerializer 、TypeComparator 。 


Flink 的 应 用 


Flink 适合 于 以 下 几 个 应 用 场景 。 

(1) 多 种 数据 源 : 当 数据 是 由 数 以 百 万 计 的 不 同 用 户 或 设备 产生 时 ， 它 假设 数据 会 按 
照 事件 产生 的 顺序 安全 到 达 。 在 上 游 数据 失败 的 情况 下 ， 一 些 事件 可 能 会 比 它们 晚 几 个 
小 时 ,迟到 的 数据 也 需要 计算 ,这样 的 结果 是 准确 的 。 

(2) 应 用 程序 状态 管理 ， 当 程序 变 得 更 加 复杂 ,例如 简单 的 过 滤 或 者 增强 的 数据 结 
构 ， 这 时 管理 这 些 应 用 的 状态 将 会 变 得 比较 难 ( 例 如 ,计数 器 、 过 去 数据 的 窗口 、 状 态 
机 、 内 置 数据 库 )。Flink 提供 了 工具 ， 这些 状态 是 有 效 的 、 容 错 的 和 可 控 的 ， 所 以 不 需 
要 自己 构建 这 些 功 能 。 

(3) 数 据 的 快速 处 理 : 有 一 个 焦点 在 实时 或 近 实时 用 例 场景 中 ， 从 数据 生成 的 那个 时 
刻 ， 数据 就 应 该 是 可 达 的 。 在 必要 的 时 候 ，Flink 完全 有 能 力 满足 这 些 延 迟 。 

(4) 海 量 数据 处 理 : 这些 程序 需要 分 布 在 很 多 节点 来 运行 从 而 支持 所 需 的 规模 。Flink 
可 以 在 大 型 的 集群 中 无 颖 运行， 就 像 是 在 一 个 小 集群 一 样 。 

(5) 低 延 时 的 数据 处 理 : 高 并 发 处 理 数据 ， 实 现 毫秒 级 ， 且 兼 具 可 靠 性 ， 例 如 互联 网 
金融 业务 、 点 击 流 日 志 处 理 以 及 与 情 监控 等 。 

从 应 用 实例 来 看 ， 阿 里 巴巴 的 所 有 基础 设施 团队 使 用 Flink 实时 更 新 产品 细节 和 库存 
信息 ， 为 用 户 提供 更 高 的 关联 性 ， 优 化 电子 商务 的 实时 搜索 结果 。 可 以 通过 Flink- Pow- 
ered 数据 分 析 平 台 提 供 实时 数据 分 析 ， 从 游戏 数据 中 大 幅 缩 敌 了 观察 时 间 ， 针 对 数据 分 
析 团 队 提 供 实时 流 处 理 服务 。Bouygues 电信 公司 ,是 法 国 最 大 的 电信 供应 商 之 一 ,使 用 
Flink 监控 其 有 线 和 无 线 网 络 ， 实现 快速 故障 响应 。Zalando 使 用 Flink 转换 数据 以 便于 加 
载 到 数据 仓库 ， 将 复杂 的 转换 操作 转化 为 相对 简单 的 并 确保 分 析 终端 用 户 可 以 更 快 访问 
数据 ， 实 现 商 务 智 能 分 析 。 

下 面 以 爱立信 公司 为 例 具体 说 明 Flink 的 应 用 。 

考虑 到 由 爱立信 公司 提供 技术 支持 的 运营 商 通常 拥有 庞大 的 数据 规模 (每 天 处 理 
10TB 一 100TB 的 数据 ， 每 秒 处 理 10 万 一 100 万 个 事件 )， 该 公司 的 一 支 团 队 决定 实现 所 
谓 的 Kappa 架构 。2014 年 ，Kafka 的 创始 人 之 一 Jay Kreps 为 0”Reilly Radar 撰写 了 一 
篇 批评 Lambda 架构 的 文章 ， 并 在 其 中 开玩笑 式 地 创造 了 “Kappa 架构 ”这 个 词 。 其 实 ， 
Kappa 架构 正 是 第 2 章 所 讨论 的 流 处 理 架构 。 其 中 ,数据 流 是 设计 核心 ， 数 据 源 不 可 变 
更 ， 架 构 采 用 像 Flink 这 样 的 单一 流 分 析 框 架 处 理 新 鲜 数 据 ， 并 通过 流 重 播 处 理 历史 
数据 。 

爱立信 公司 需要 实时 分 析 云 基础 设施 的 系统 性 能 指标 和 日 志 ， 从 而 持续 地 监视 系 
统 行为 以 确定 是 一 切 正常 还 是 有 “新 奇 点 ”出 现 .“ 新 奇 点 ” 既 可 能 是 异常 行为 ， 也 
可 能 是 系统 状态 变更 ， 如 加 入 了 新 虚拟 机 。 爱 立信 团队 使 用 的 方法 是 将 一 个 贝 叶 斯 
在 线 学 习 模型 应 用 于 包含 电信 云 监控 系统 多 个 指标 的 数据 流 ( 遥 测 信息 和 日 志 事件 ) 。 
























































爱立信 公司 的 研究 人 员 Nicolas Seyvet 和 Ignacio Mulas Viela 说 道 : “该 架构 在 不 断 地 
适应 (学 习 ) 新 系统 常态 的 同时 ， 能 够 快速 且 准 确 地 发 现 异 常 。 这 使 它 成 为 理想 工具 ， 
并 能 够 极 大 地 降低 因 大 型 计算 设施 运行 而 产生 的 维护 成 本 。” 爱 立信 团队 构建 的 数据 
管道 如 图 8. 12 所 示 。 
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图 8.12 爱立信 团队 构建 的 数据 管道 


推送 给 Kafka 的 原始 数据 是 来 自 云 基础 设施 中 的 所 有 实体 机 和 虚拟 机 的 遥测 信息 和 
日 志 事 件 。 它 们 经 过 不 同 的 Flink 作业 消费 之 后 ， 被 写 回 Kafka 主题 里 ， 然 后 再 从 Kafka 
主题 里 被 推送 给 搜索 引擎 Elasticsearch 和 可 视 化 系统 Kibana。 这 种 架构 让 每 个 Flink 作业 
所 执行 的 任务 有 清晰 的 定义 ,一 个 作业 的 输出 可 以 成 为 男 一 个 作业 的 输入 。 图 8. 12 展示 
了 异常 检测 管道 ， 每 个 中 间 流 都 是 Kafka 主题 (以 分 配给 它 的 数据 命名 ) ， 每 个 长 方形 代 
表 一 个 Flink 作业 。 

在 本 案例 中 ，Flink 对 事件 时 间 的 支持 主要 有 两 个 原因 。(1) 有 助 于 准确 地 识别 异 
常 。 时 间 对 识别 异常 很 重要 ,| 当 许多 日 志 事件 在 同一 时 间 出 现时 ,通常 说 明 可 能 有 错 
误 发 生 。 为 了 将 这 些 事件 正确 地 分 组 和 归 类 ， 考 虑 它们 的 真实 时 间 ( 而 不 是 处 理 时 间 ) 很 
重要 。(2) 有 助 于 采用 流 处 理 架 构 。 在 流 处 理 架 构 中 ;所 有 的 计算 都 由 流 处 理 器 完成 ， 升 
级 应 用 程序 的 做 法 是 将 它们 在 流 处 理 器 中 再 次 执行 。 用 同一 种 计算 运行 两 次 同样 的 数据 ， 
必须 得 到 同样 的 结果 这 只 有 依靠 事件 时 间 操 作 才 能 实现 。 

Flink 在 阿里 巴巴 搜索 中 有 多 方面 的 应 用 。 在 实时 特征 更 新 方面 ， 阿 里 巴巴 搜索 排名 
中 ,产品 CTR、 库 存 、 点 击 数 等 数据 被 作为 特征 值 ， 这 些 数据 会 随时 间 变 化 。 如 果 总 能 
拿 到 最 新 的 数据 ， 就 能 为 用 户 提供 相关 性 更 好 的 搜索 排名 。Flink 管道 提供 了 在 线 特 征 更 
新 的 功能 ， 可 以 大 大 提高 转化 率 。 另 外 ,阿里 巴巴 一 年 中 会 有 几 场 大 型 促销 ， 这 时 用 户 
的 行为 也 会 发 生 巨变 ， 交 易 量 会 剧 增 ， 往 往 比 日 常 高 出 好 几 倍 ， 之 前 训练 好 的 模型 在 这 
种 场景 下 就 失效 了 。 所 以 需要 依靠 日 志和 Flink 流 处 理 任务 来 进行 在 线 机 器 学 习 。 根 据 实 
时 数据 建立 模型 ， 大幅 提升 了 在 这 些 不 寻常 又 十 分 重要 的 日 子 里 的 转化 率 。 阿 里 巴巴 选 
择 Flink 来 驱动 搜索 引擎 架构 有 4 个 方面 原因 : 一 是 敏捷 性 ,希望 用 一 个 代码 库 来 维护 整 
个 搜索 架构 ， 同 时 期 望 一 个 高 级 的 API 来 表达 业务 逻辑 ， 二 是 低 延 迟 。 库存 的 变更 必须 
要 立刻 反映 在 搜索 结果 中 ; 三 是 一 致 性 ， 卖家 或 产品 数据 库 的 变更 必须 反映 在 最 终 的 搜 
索 结 果 上 ， 因 此 需要 “At-Least-Once” 语 义 ; 四 是 就 开销 而 言 ， 阿 里 巴巴 有 大 量 数据 要 
处 理 ， 就 规模 而 言 ， 效 率 的 提升 会 大 幅 节省 开销 ,因此 需要 一 个 足够 高 效 的 框架 来 解决 
高 流量 问题 。 



































8.3 基于 Kafka 的 大 数据 处 理 技术 


Kafka 技术 简介 


Kafka 是 由 领 英 网 开源 的 分 布 式 消 息 队 列 ， 能 够 轻松 实现 高 吞吐 、 可 拓 回 3 回 
展 、 高 可 用 ， 并 且 部 署 简单 快速 、 开 发 接口 丰富 。 各 大 互联 网 公司 已 经 在 ~ 
生产 环境 中 广泛 使 用 ， 目 前 已 经 有 很 多 分 布 式 处 理 系统 支持 使 用 Kafka， 合 i 
如 Spark、Strom、Druid、Flume 等 。Kafka 分 布 式 消息 队列 的 优点 和 作用 
如 下 。 

(1) 解 看: 将 消息 生产 阶段 和 处 理 阶段 拆 分 开 ， 两 个 阶段 互相 独立 ， 各自 实现 自己 的 
处 理 逻辑 ， 通 过 Kafka 提供 的 消息 写 人 和 消费 接口 实现 对 消息 的 连接 处 理 。 降 低 开发 复 
杂 度 ， 提 高 系统 稳定 性 。 

(2) 高 春 吐 率 ，Kafka 通过 顺序 读 写 磁盘 提供 可 以 和 内 存 随机 读 写 相 匹敌 的 读 写 速度 
及 灵活 的 客户 端 API 设计 ， 利用 Linux 操作 系统 提供 的 “ 零 复制 ” 特 性 减少 消息 网 络 传 
输 时 间 ， 提 供 端 到 端的 消息 压缩 传输 ， 对 同一 主题 下 的 消息 采用 分 区 存储 ，Kafka 通过 诸 
多 良好 的 特性 利用 廉价 的 机 器 就 可 以 轻松 实现 高 春 吐 率 。 

(3) 高 容错 、 高 可 用 : Kafka 允许 用 户 对 分 区 配置 多 副本 ，Kafka 将 副本 均匀 地 分 配 
到 各 个 Broker 存储 ， 保 证 同一 个 分 区 的 副本 不 会 在 同一 个 机 器 上 存储 (集群 模式 下 )， 多 
副本 之 间 采 用 Leader- Follower 机 制 同步 消息 ， 只 有 Leader 对 外 提供 读 写 服 务 ， 当 Lea- 
der 意外 失败 、Broker 进程 关闭 、 服 务 宕 机 等 情况 导致 数据 不 可 用 时 ，Kafka 会 从 Follo- 
wer 中 选择 一 个 Leader 继续 提供 读 写 服 务 。 

(4) 可 拓展 : 理论 上 Kafka 的 性 能 随 着 Broker 的 增多 而 增加 ， 增 加 一 个 Broker 只 需 
要 为 新 增加 的 -Broker 设置 一 个 唯一 编号 所 编写 好 配置 文件 后 ，Kafka 通过 ZooKeeper 就 
能 发 现 新 的 Broker。 

(5) 对 峰值 的 处 理 : 如 秒杀 系统 、 双 十 一 等 促销 活动 的 爆发 式 集中 支付 系统 、 推 荐 系统 
等 都 需要 消息 队列 的 介入 ， 这 类 系统 在 某 个 时 间 点 数据 会 爆发 式 增长 ， 后 台 处 理 系统 不 能 够 
及 时 处 理 峰值 请 求 ， 如 果 没有 消息 队列 的 接 入 就 会 造成 后 台 系统 处 理 不 及 时 ， 请 求 数据 严重 
积压 ， 如 此 恶性 循环 最 终 导 致 系统 崩溃 。Kafka 的 接 人 能 够 使 数据 进行 元 余 存储 ， 并 保证 消 
息 顺序 读 写 ， 相当 于 给 系统 接 入 了 一 个 大 的 缓冲 区 ， 既 能 接受 持续 暴 增 的 请 求 ， 又 能 根据 后 
台 系 统 的 处 理 能 力 提供 数据 服务 ， 进 而 提高 各 业务 系统 的 峰值 处 理 能 力 。 

Kafka 有 如 此 多 的 优点 并 且 被 广泛 认可 和 使 用 ， 完 全 得 益 于 它 优 秀 的 设计 架构 以 及 丰 
富 的 开发 接口 。 下 面 详细 介绍 Kafka 的 设计 架构 ， 其 示意 图 如 图 8. 13 所 示 。 

Broker: 启动 Kafka 的 一 个 实例 就 是 一 个 Broker， 默认 端口 9092。 一 个 Kafka 集群 
可 以 启动 多 个 Broker 同时 对 外 提供 服务 ，Broker 不 保存 任何 Producer 和 Consumer 相关 
的 信息 。 

Topic: 主题 。Kafka 中 同一 类 型 数据 集 的 名 称 ， 相 当 于 数据 库 中 的 表 ，Producer 将 
同一 类 型 的 数据 写 入 同一 个 Topic 下 ， Consumer 从 同一 个 Topic 消费 同一 类 型 的 数据 。 
逻辑 上 同一 个 数据 集 只 有 一 个 Topic， 如 果 设 置 一 个 Topic 有 多 个 Partition 和 多 个 Repli- 
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图 8.13 ”Kafka 设计 架构 示意 图 


cation， 在 物理 上 同一 个 Topic 的 数据 集会 被 分 成 多 份 存储 到 不 同 的 物理 机 上 。 

Partition: 分 区 ,一 个 Topic 可 以 设置 多 个 分 区 ， 相当 于 把 一 个 数据 集 分 成 多 份 ， 分 
别 放 到 不 同 的 分 区 中 存储 。 一 个 Topic 可 以 有 一 个 或 者 多 个 分 区 ， 在 创建 Topic 的 时 候 可 
以 设置 Topic 的 Partition 数 ， 如 果 不 设置 则 默认 为 1。 理 论 上 Partition 数 越 多 ， 系 统 的 
整体 吞吐 率 就 越 高 ， 但 在 实际 应 用 中 并 不 是 Partition 越 多 越 好 ， 过 多 的 Partition 在 Bro- 
ker 宕 机 时 反而 需要 重新 对 Partition 选 主 ， 在 这 个 过 程 中 耗 时 太 久 会 导致 Partition 暂时 
无 法 提供 服务 ， 造 成 写 人 消息 失败 。 分 区 命名 规则 是 Topicname- Index( 如 Testtopic- 1、 
Testtopic-2 等 ) 。 

Segment: 段 文件 。Kafka 中 最 小 的 数据 存储 单位 。Kafka 可 以 存储 多 个 Topic， 各 个 
Topic 之 间隔 离 没 有 影响 。 一 个 Topic 包含 一 个 或 者 多 个 Partition， 每 个 Partition 在 物理 
结构 上 是 一 个 文件 夹 ， 文 件 夹 名 称 以 Topic 名 称 加 Partition 索引 的 方式 命名 。 一 个 Parti- 
tion 包含 多 个 Segment， 每 个 Segment 以 Message 在 Partition 中 的 起 始 偏 移 量 命 名 以 log 
结尾 的 文件 ，Productor 向 Topic 中 发 布 消息 会 被 顺序 写 入 对 应 的 Segment 文件 中 。Kaf- 
ka 为 了 提高 写 人 和 查询 速度 ， 在 Partition 文件 夹 下 每 一 个 Segment Log 文件 都 有 一 个 同 
名 的 索引 文件 ,索引 文件 以 Index 结尾 。 

Offset: 消息 在 分 区 中 的 偏 移 量 ， 用 来 在 分 区 中 唯一 地 标识 这 个 消息 。 

Replication: 副本 。 一 个 Partition 可 以 设置 一 个 或 者 多 个 副本 ,副本 主要 保证 系统 

















能 够 持续 不 丢失 地 对 外 提供 服务 。 在 创建 Topic 时 可 以 设置 Partition 的 Replication 数 。 

Producer: 消息 生产 者 。 负 责 向 Kafka 中 发 布 消息 。 

Consumer Group: 消费 者 所 属 组 。 一 个 Consumer Group 可 以 包含 一 个 或 者 多 个 
Consumer， 当 一 个 Topic 被 一 个 Consumer Group 消费 时 ，Consumer Group 内 只 能 有 一 
个 Consumer 消费 同一 条 消息 ， 不 会 出 现 同一 个 Consumer Group 中 多 个 Consumer 同时 
消费 一 条 消息 造成 一 个 消息 被 一 个 Consumer Group 消费 多 次 的 情况 。 

Consumer: 消息 消费 者 。Consumer 从 Kafka 指定 的 主题 中 拉 取 消息 ， 如 果 一 个 
Topic 有 多 个 分 区 ，Kafka 只 能 保证 一 个 分 区 内 消息 的 有 序 性 ， 在 不 同 的 分 区 之 间 却 无 法 
保证 。 

ZooKeeper: ZooKeeper 在 Kafka 集群 中 主要 用 于 协调 管理 ，Kafka 将 元 数据 信息 保 
存在 ZooKeeper 中 ,通过 ZooKeeper 的 协调 管理 来 实现 整个 Kafka 集群 的 动态 扩展 、 各 
个 Broker 负载 均衡 、Productor 通过 ZooKeeper 感知 Partition 的 Leader、Consumer 消费 
的 负载 均衡 并 可 以 保存 Consumer 消费 的 状态 信息 ，Kafka 0:9 版 本 之 前 Consumer 消费 
消息 的 偏 移 量 记录 在 ZooKeeper 中 ，0. 9 版 本 之 后 则 由 Kafka 自己 维护 Consumer 消费 消 
息 的 偏 移 量 。 


Kafka 功能 介绍 SN 


Kafka 主要 有 高 看 吐 、 高 可 用 等 功能 ;下面 将 分 别 介绍 。 
1. 高 吞吐 功能 回 
Kafka 通过 顺序 读 写 磁 盘 提 供 可 以 和 内 存 随 机 读 写 相 匹敌 的 读 写 速度 ， 使 

用 Sendfile 技术 实现 “ 零 复制 ”以 减少 消息 网 络 传输 时 间 ， 通 过 对 客户 端的 优 国 隐 如 

化 设计 来 提高 消息 发 布 和 订阅 的 性 能 ， 对 同一 主题 下 的 消息 采用 多 分 区 存储 ， 【天 共振 二 

Kafka 通过 诸多 良好 的 特性 利用 廉价 的 机 器 就 可 以 轻松 地 实现 高 乔 吐 率 。 Po 
磁盘 存储 的 最 大 优势 是 成 本 低 、 存 储 能 力 强 、 持 久 化 时 间 长 ， 不 同 的 消费 者 可 以 对 

同一 个 消息 多 次 处 理 ， 但 是 人 们 普遍 认为 磁 稚 的 读 写 速度 比 内 存 的 读 写 速度 差 很 多 。 经 

过 测试 ， 磁 盘 顺序 读 写 的 性 能 比 内 存 随机 读 写 的 性 能 还 要 高 ， 而 磁盘 随机 读 写 的 性 能 就 

很 差 ， 都 是 在 磁盘 上 进行 读 写 操作 ， 磁 盘 顺 序 读 写 的 性 能 比 磁盘 随机 读 写 的 性 能 要 高 ， 

其 主要 原因 是 传统 的 机 械 硬盘 在 随机 读 写 过 程 中 磁头 和 探 针 需 要 快速 地 频繁 转动 寻 道 ， 

寻 道 过 程 耗费 了 大 量 时 间 ， 严重 影响 了 磁盘 的 读 写 性 能 。 

Page Cache( 页 缓存 ) 是 操作 系统 分 配 的 一 块 闲 党 内存 区 域 ， 当 有 其 他 应 用 程序 申请 内 
存 时 ， 操 作 系统 会 释放 一 部 分 页 缓存 来 满足 应 用 程序 的 内 存 需求 。 当 有 应 用 程序 需要 读 
取 文件 数据 时 ， 操 作 系统 首先 在 页 缓存 中 查找 是 否 有 应 用 程序 要 读 取 的 数据 ， 如 果 没 有 
则 将 目标 文件 数据 先 加 载 到 页 缓存 中 ， 然 后 从 页 缓存 中 将 数据 发 送 给 应 用 程序 。 当 应 用 
程序 需要 将 数据 写 入 文件 中 时 ,操作 系 统 先 将 应 用 程序 发 送 的 数据 缓存 到 页 缓冲 区 并 标 
记 为 脏 页 进行 管理 ， 操 作 系 统 周期 性 地 将 脏 页 数据 写 人 磁盘 文件 中 。 

Kafka 很 好 地 利用 了 页 缓存 的 高 速 读 写 性 能 。 当 Producer 向 Kafka 发 布 消息 时 
Broker 接收 到 消息 先 将 消息 写 人 页 缓存 并 且 标 记 为 脏 页， 操作 系统 周期 性 地 将 脏 页 数据 
写 人 分 区 内 的 Log 文件 中 ; 当 Consumer 有 拉 取 操作 时 ， 先 从 页 缓存 中 查找 ， 如 果 在 页 组 


































































存 中 命中 需要 拉 取 的 消息 则 直接 将 消息 拉 取 走 ， 如 果 发 生 缺 页 的 情况 则 从 Log 文件 中 将 
数据 加 载 到 页 缓存 返回 给 Consumer。 通 过 页 缓存 的 使 用 , 减少 了 数据 传输 次 数 和 网 络 开 
销 ， 如 果 Producer 写 入 Kafka 和 Consumer 从 Kafka 中 拉 取 的 速度 达到 一 个 平衡 点 ， 完 
全 可 以 在 页 缓存 中 达到 交换 数据 的 目的 。 

Kafka 使 用 Scala 开发 完成 ，Scala 依赖 于 JVM,， JVM 自动 完成 垃圾 回收 ， 当 执行 一 
次 Full GC 时 需要 “Stop the Word”， 除 了 GC 所 需 线 程 之 外 ， 其 他 线程 都 要 停止 工作 ， 
直到 Full GC 结束 。 如 果 在 Kafka 中 消息 全 部 缓存 到 JVM 且 对 象 比 较 大 时 ， 会 频繁 引起 
Full GC， 严 重 影响 Kafka 性 能 。Kafka 的 设计 中 采用 页 缓存 的 方式 缓存 消息 ， 避 免 在 
JVM 内 部 缓存 数据 带 来 的 负面 影响 。 如 果 Kafka 重启 或 者 意外 宕 机 ，JVM 线程 内 部 的 缓 
存 都 会 被 清除 ， 而 操作 系统 管理 的 页 缓存 不 会 受到 任何 影响 ， 可 以 继续 使 用 ， 避 免 了 消 
息 丢 失 的 风险 。 

Kafka 的 设计 通过 前 面 介 绍 的 磁盘 存储 顺序 读 写 、 巧 妙 利用 操作 系统 页 缓存 取得 了 较 
好 性 能 ， 但 是 Kafka 的 工程 师 们 没有 停 下 继续 对 Kafka 的 架构 和 实现 方式 进行 优化 的 脚 
步 。Kafka 为 了 进一步 优化 性 能 还 采用 了 Sendfile 技术 ， 通 过 “ 零 复 制 ” 发 送 数据 ， 实 现 
高 效 数据 传输 。 

没有 使 用 “ 零 复制 ”技术 的 应 用 程序 之 间 的 数据 传输 过 程 为 : 第 一 步 ， 操 作 系 统 将 
数据 从 磁盘 读 人 内 核 空 间 中 的 页 缓存 ; 第 三 步 ， 应 用 程序 将 数据 从 内 核 空间 读 和 人 用 户 空 
间 缓 冲 区 ;第 三 步 ， 应 用 程序 将 数据 写 回 到 内 核 空间 放 和 人 的 Sock 缓冲 区 中 ; 第 四 步 ， 操 
作 系 统 将 数据 从 Socket 缓冲 区 复制 到 NIC 缓冲 区 ， 并 通过 网 络 发 送出 去 。 整 个 数据 传输 
过 程 中 ， 同 一 份 数据 在 内 核 与 应 用 程序 之 间 多 次 复制 ， 传 输 效率 低下 。 应 用 Sendfile 技术 
之 后 取消 了 内 核 与 应 用 程序 缓存 之 前 的 传输 ， 数 据 从 磁盘 读 取出 来 后 直接 从 内 核 缓 冲 区 
发 送 到 NIC 缓冲 区 ， 大 大 简化 了 数据 传输 流程 ， 提 高 了 数据 传输 效率 ， 为 Kafka 高 吞吐 
的 实现 提供 了 高 效 的 数据 传输 保障 。 

Kafka 将 一 个 主题 数据 分 成 多 个 分 区 存储 、 每 一 个 分 区 对 应 Consumer 的 一 个 处 理 线 
程 。 理 论 上 讲 ; 分 区 越 多 Consumer 的 并 发 处 理 能 力 越 强 , 但 是 随 着 分 区 的 不 断 增长 ， 
Consumer 启动 的 线程 数 也 会 越 来 越 多 。 线 程 的 启动 需要 占用 一 部 分 资源 ， 过 多 的 分 区 可 
能 不 会 提高 性 能 ， 反 而 会 增加 系统 负担 降低 性 能 。 分 区 数量 的 选择 要 根据 具体 使 用 场景 ， 
需要 经 过 多 次 测试 ， 设 置 合理 的 分 区 数 ， 提 高 系统 性 能 。 

Kafka 在 0. 8 版 本 以 后 提供 Producer 端 Ack 机 制 ， 设 置 Producer 发 送 消息 到 Broker 
是 否 等 待 接收 Broker 返回 成 功 送 达 的 信号 。0 表示 Producer 发 送 消息 到 Broker 之 后 不 需 
要 等 待 Broker 返回 成 功 送 达 的 信号 ， 这 种 方式 吞吐 量 高 ， 但 是 存在 数据 丢失 的 风险 ， 
Retries 配 置 的 发 送 消息 失败 重 试 次 数 将 失效 。1 表示 Broker 接收 到 消息 成 功 写 人 本 地 
Log 文件 后 向 Producer 返回 成 功 接收 的 信号 ， 不 需要 等 待 所 有 的 Follower 全 部 同步 完 消 
息 后 再 作 回 应 ， 这 种 方式 在 数据 丢失 风险 和 吞吐 量 之 间 做 了 平衡 。All 或 者 -1 表示 Broker 
接收 到 Producer 的 消息 成 功 写 入 本 地 Log 并 且 等 待 所 有 的 Follower 成 功 写 人 本 地 Log 后 
向 Producer 返回 成 功 接收 的 信号 ， 这 种 方式 能 够 保证 消息 不 丢失 ,但 是 性 能 最 差 。 应 根 
据 使 用 场景 灵活 选取 Ack 方式 。 

Kafka Producer 发 送 消 息 时 通过 配置 “batch. size” 和 “timeout. ms” 两 个 配置 项 ， 
分 别 设置 批量 发 送 消息 数量 和 等 待 发 送 延 迟 时 间 来 启动 批量 发 送 消息 功能 ，Kafka Pro- 



































ducer 在 等 待 发 送 期 间 会 在 内 存 中 不 断 积累 消息 ， 当 消息 达到 一 定数 量 或 者 等 待 时 间 到 达 
时 ,批量 将 消息 发 送 到 Kafka。 批 量 发 送 策略 降低 了 Producer 端 发 送 消息 的 网 络 IO 次 
数 ， 有效 提高 了 Producer 发 送 消息 的 效率 。 

当 有 大 批量 的 数据 需要 写 和 人 Kafka 时 ， 影 响 性 能 下 降 的 因素 可 能 不 是 内 存 、CPU、 
磁盘 等 ， 瓶 颈 可 能 是 网 络 带 宽 。Kafka 提供 了 端 到 端的 数据 压缩 传输 ， 在 Producer 端 通 
过 设置 “compression. type” 指 定 发 送 消息 的 压缩 格式 就 可 以 轻松 实现 。 这 对 于 带宽 资源 
有 限 、 跨 机 房 、 跨 数据 中 心 的 消息 传输 尤为 重要 。 写 入 Kafka 的 批量 压缩 数据 不 会 在 
Kafka 中 解压 缩 ， 而 是 以 压缩 状态 存储 ， 由 Consumer 解压 缩 处 理 。 虽 然 Consumer 端 解 
压缩 处 理 过 程 增 加 了 CPU 的 开销 ， 但 是 对 于 在 网 络 带 宽 性 能 瓶颈 的 场景 下 ， 能 够 有 效 提 
高 Kafka 吞吐 量 。 

2. 高 可 用 功能 

Kafka 中 的 Topic 采用 分 区 存储 数据 ， 一 般 分 区 数 要 多 于 Broker 数 ， 从 而 保证 各 分 
Leader 能 够 均匀 地 分 布 到 各 个 Broker 节点 。 每 个 分 区 可 以 配置 多 个 副本 ， 副 本 数 包含 分 
本 身 。 多 个 副本 中 会 “选举 ”一 个 Leader 对 外 提供 服务 ， 其 他 副本 只 是 与 Leader 保持 心跳 
同步 数据 ， 同 步 数据 的 顺序 与 Leader 保持 一 致 ， 顺 序 存储 。 当 Leader 失败 不 能 提供 服务 后 ， 
Kafka 会 从 其 他 存活 的 副本 中 重新 选取 Leader 继续 提供 服务 。 虽 然 为 分 区 添加 副本 可 能 会 对 
吞吐 性 能 有 一 些 影响 ， 但 是 保证 了 系统 的 稳定 性 ， 提 高 了 系统 的 容错 能 力 。 

Kafka 会 从 Broker 中 选取 一 个 作为 ,Coiitroller 控制 器 ，Controller 在 整个 Kafka 集群 
中 只 有 一 个 ， 作 为 全 局 的 Leader 负 责 整 个 集群 的 管理 , 包括 Topic 分 区 管理 、Broker 管 
理 和 Topic 的 操作 等 。Kafka 为 Controller 提供 了 优雅 、 高 效 的 容错 机 制 。 当 启动 Kafka 
时 ， 各 个 Broker 都 会 争 相 向 ZooKeeper 创建 Controller ZNode( 在 Zookeeper 中 ， 节 点 也 
称 为 ZNode)， 该 ZNode 只 会 由 一 个 Broker 创建 成 功 ， 创 建成 功 的 Broker 被 选举 为 Con- 
troller， 竞 选 失败 未 成 为 Controller 的 Broker 会 在 Controller ZNode 上 创建 监听 。 当 Bro- 
ker 宕 机 或 者 其 他 原因 导致 Broker 运行 失败 时 ，Controller 的 ZNode 会 被 删除 ， 其 他 监听 
的 Broker 继续 按照 上 面 描述 的 步骤 竞选 Leader。Kafka 提供 的 这 种 Controller 竞选 方式 
简洁 、 高 效 ， 而 且 能 够 容忍 更 多 的 Broker 失败 ， 只 要 有 一 个 Broker 存活 都 可 以 竞选 成 功 
为 Controller。 

如 果 创 建 Topic 设置 了 多 个 分 区 ， 则 Controller 负责 分 区 Leader 选举 ,初始 化 创建 
时 ， 第 一 个 分 区 采用 随机 分 配 Broker 的 方式 ， 第 一 个 被 分 配 的 分 区 则 为 Leader。 当 To- 
pic 完全 创建 成 功 之 后 ，Controller 会 一 直 监 控 各 个 Broker 及 各 个 分 区 的 状态 。Kafka 在 
ZooKeeper 中 动态 维护 了 一 个 目前 存活 的 Follower 同步 副本 (In-Sync Replicas，ISR) 的 集 
合 ， 如 果 在 Follower 副本 长 时 间 没 有 与 Leader 进行 心跳 连接 或 者 Follower 同步 副本 的 消 
息 严 重 落后 于 Leader 中 存储 的 消息 时 ， 该 Follower 副本 将 会 被 从 ISR 中 移 除 ， 这 个 超时 
时 间 由 replica. lag. time. max. ms 参数 设置 。 一 旦 某 个 分 区 的 Leader 出 现 异常 运行 失败 ， 
Controller 将 会 从 ISR 中 选择 一 个 与 之 前 Leader 数据 同步 一 致 的 副本 作为 新 的 Leader。 

还 有 一 种 特殊 情况 , 全 部 副本 都 运行 失败 ,在 ISR 中 没有 存活 的 副本 ， 此 时 选择 
Leader 有 两 种 情况 。 第 一 种 是 等 待 ISR 集合 中 的 任何 一 个 副本 恢复 之 后 作为 Leader。 这 
样 的 优点 是 重新 恢复 的 副本 与 原来 Leader 数据 一 致 ， 不 会 造成 丢 数据 的 风险 ; 缺点 是 如 
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果 ISR 中 的 副本 没有 一 个 能 够 再 次 恢复 启动 ， 则 整个 系统 不 可 用 。 第 二 种 选择 是 不 管 是 
ISR 中 的 副本 还 是 从 ISP 中 已 经 移 除 淘汰 的 副本 ,只 要 有 一 个 副本 启动 起 来 就 把 该 副本 作 
为 Leader。 这 样 做 的 优点 是 增 大 了 系统 能 够 再 次 恢复 服务 的 可 能 ;缺点 是 如 果 先 恢复 的 
是 之 前 被 淘汰 的 副本 ， 可 能 与 之 前 Leader 数据 不 同步 ， 造 成 数据 丢失 。 这 就 需要 在 一 致 
性 和 可 用 性 之 间 做 一 个 平衡 ， 以 求 达到 一 个 比较 满意 的 效果 。 


Kafka 的 应 用 


回 吕 中; 回 Kafka 可 以 像 消 息 系统 一 样 读 写 数 据 流 ， 可 以 在 实时 业务 的 场景 中 写 可 靠 的 
流 处 理应 用 ,并 且 能 安全 地 存储 数据 流 到 分 布 式 、 多 副本 、 容 错 的 集群 中 。 
站 中 ”Kafka 就 是 一 个 消息 中 间 件 。 

a 消息 系统 或 者 说 消息 队列 中 间 件 是 当前 处 理 大 数据 的 一 个 非常 重要 的 组 
简单 示例 了 件 ， 用 来 解决 应 用 解 而 、 异 步 通信 、 流 量 控 制 等 问题 ， 从 而 构建 一 个 高 效 、 
灵活 、 消 息 同步 和 异步 传输 处 理 、 存 储 转发 、 可 伸缩 和 最 终 一 致 性 的 稳定 系 

统 。 当 前 比较 流行 的 消息 中 间 件 有 Kafka、RocketMQ、 RabbitMQ、ZeroMQ、ActiveMQ、 

MetaMQ 和 Redis 等 ， 这 些 消息 中 间 件 在 性 能 及 功能 上 各 有 所 长 。 如 何 选择 一 个 消息 中 间 件 

取决 于 业务 场景 、 系 统 运行 环境 、 开 发 及 运 维 人 员 对 消息 中 件 间 掌握 的 情况 等 。Kafka 在 下 

面 这 些 场景 中 会 是 一 个 不 错 的 选择 。 

(1) 消 息 系统 。 作 为 一 款 优秀 的 消息 系统 ，Kafka 具有 高 吞吐 量 、 内 置 的 分 区 、 备 份 

元 余 分 布 式 等 特点 ， 为 大 规模 消息 处 理 提 供 了 一 种 很 好 的 解决 方案 。 

(2) 应 用 监控 。 利 用 Kafka 采集 应 用 程序 和 服务 器 健康 相关 的 指标 ， 如 CPU 占用 率 、 

IO、 内 存 、 连 接 数 、TPS、QPS 等 ， 然 后 将 指标 信息 进行 处 理 ， 从 而 构建 一 个 具有 监控 

仪表 盘 、 曲 线 图 等 可 视 化 监控 系统 。 例 如 ， 很 多 公司 采用 Kafka 与 ELK 整合 构建 应 用 服 

务 监 控 系 统 。 

03) 网 站 用 户 行为 追踪 。 为 了 更 好 地 了 了 解 用 户 行为 、 操 作 习 惯 ， 改 善 用 户 体验 ， 进 而 

对 产品 升级 改进 ,将 用 户 操作 轨迹 、 内 容 等 信息 发 送 到 Kafka 集群 上 ,通过 Hadoop、 

Spark 或 Strom 等 进行 数据 分 析 处 理 ， 生 成 相应 的 统计 报告 ， 为 推荐 系统 推荐 对 象 建 模 提 

供 数据 源 ， 进 而 为 每 个 用 户 进行 个 性 化 推荐 。 

(4) 流 处 理 。 需 要 将 已 收集 的 流 数据 提供 给 其 他 流 式 计算 框架 进行 处 理 ， 用 Kafka 收集 流 
数据 是 一 个 不 错 的 选择 ， 而 且 当 前 版 本 的 Kafka 提供 了 Kafka Streams 支持 对 流 数据 的 处 理 。 
(5) 持 久 性 日 志 。Kafka 可 以 为 外 部 系统 提供 一 种 持久 性 日 志 的 分 布 式 系统 。 日 志 可 

以 在 多 个 节点 间 进 行 备份 ，Kafka 为 故障 节点 数据 恢复 提供 了 一 种 重新 同步 的 机 制 。 同 

时 ，Kafka 很 方便 与 HDFS 和 Flume 进行 整合 ， 这 样 就 方便 将 Kafka 采集 的 数据 持久 化 

到 其 他 外 部 系统 中 。 

作为 基础 服务 ，Kafka 在 搜狗 商业 平台 广泛 应 用 于 各 类 数据 业务 。 为 了 便于 采集 各 业 

务 系统 的 日 志 数据 ， 通 过 自行 开发 的 Kafka Producer 收集 日 志 ， 它 支持 日 志文 件 切 分 、 

故障 恢复 、 断 点 续 传 和 失败 重 试 ， 已 作为 基础 组 件 部 署 在 产生 数据 的 各 应 用 服务 器 上 ， 

各 应 用 只 需 把 数据 写 人 日 志文 件 ， 即 可 将 数据 按 需 收 集 并 传输 至 Kafka 集群 。 下 游 的 消 

费 系统 可 进一步 对 系统 日 志 数 据 进 行 实时 处 理 。 商 业 平 台 Kafka 应 用 架构 如 图 8. 14 所 示 。 

Kafka 将 很 多 统计 分 析 类 应 用 的 响应 时 间 提 升 到 了 秒 级 。 
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图 8.14 商业 平台 Kafka 应 用 架构 

















在 搜狗 商业 平台 ,每 天 会 产生 上 亿 级 广告 的 状态 变化 数据 ,包括 新 增 /修改 广告 的 审 
核 、 关 键 词 的 调价 、 暂 停 投 放 及 人 恢复 投放 等 。 这 些 广 告状 态 变 化 的 数据 都 需要 实时 监控 
获取 并 传输 到 后 端 服务 系统 ， 再 进行 广告 的 相关 处 理 ; 

在 引入 Kafka 之 前 ， 原 广告 状态 变更 处 理 架 构 如 图 8. 15 所 示 
业务 ， 都 需要 单独 设立 一 条 数据 传输 通道 。 





， 对 每 类 广告 状态 变化 
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图 8.15 原 广 告状 态 变 更 处 理 架构 








广告 主 新 提交 广告 后 ,需要 把 新 增 广告 的 消息 传输 给 广告 审核 系统 进行 实时 审核 

告 主 对 投放 中 的 广告 做 改 价 操作 后 ， 需 要 把 该 广告 的 改 价 消息 传输 给 广告 展现 系统 进 
行 展现 策略 调整 ， 广 告 主 暂 停 对 某 个 广告 的 投放 后 ,需要 通知 展现 系统 停止 展现 该 广告 
而 对 于 每 条 广告 的 各 种 状态 变化 ， 也 都 需要 统一 收集 并 做 进一步 数据 分 析 。 如 此 一 来 ， 
每 新 增 一 类 广告 样式 或 新 增 一 种 状态 变化 ， 都 需要 在 报 文系 统 层 单独 定制 状态 变化 的 监 
控 ， 并 与 后 端 服务 系统 进行 单 对 单 的 数据 传输 ,系统 的 扩展 性 和 开发 维护 成 本 都 比较 高 ， 
并 且 发 给 各 后 端 业务 系统 的 数据 之 间 可 能 还 存在 交集 ， 例 如 发 给 展现 系统 的 数据 也 需要 
发 给 数据 分 析 系 统一 份 ， 作 业 也 就 存在 一 定 的 资源 浪费 。 

引入 Kafka 后 广告 状态 变更 处 理 架 构 如 图 8. 16 所 示 ， 用 Kafka 来 统一 收集 各 种 广告 
状态 的 变化 数据 ， 由 下 游 系 统 订 阅 获取 。 
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图 8.16 引入 Kafka 后 广告 状态 变更 处 理 架 构 


引入 Kafka 后 ， 报 文系 统 负责 统一 收集 广告 的 状态 变化 消息 并 写 入 Kafka， 供 下 游 系 
统 使 用 。 一 方面 ， 系 统 规模 可 横向 扩展 ,消息 传输 的 春 吐 率 得 以 极 大 提升 ， 能 够 满足 日 
均 亿 级 消息 量 的 实时 传输 ; 另 一 方面 ,也 满足 了 各 类 业务 场景 的 向 后 兼容 性 ， 对 于 新 增 
类 型 的 广告 状态 变化 ， 只 需 数据 订阅 端 按 需 订 制 自己 关心 的 数据 并 对 消息 进行 解析 过 滤 
即 可 。( 案 例 来 源 : https: //blog. csdn. net/wender/article/details/78545032) 
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本 章 小 结 


本 章 围绕 图 数据 库 技术 、Flink 技术 以 及 Kafka 技术 展开 介绍 ， 重 点 介绍 了 每 种 技术 
的 概念 、 功 能 框架 及 应 用 案例 。 在 图 数据 库 部 分 ， 着 重 介 绍 了 它 的 体系 结构 模式 和 组 件 ， 
揭示 了 图 数据 库 与 其 他 复杂 的 、 结 构 可 变 的 、 紧 密 关 联 的 数据 的 存储 方法 和 查询 方法 的 
不 同 之 处 。 此 外 以 恒 昌 为 例 ， 介 绍 了 图 数据 库 的 应 用 。 在 Flink 技术 的 介绍 中 ， 讲述 了 它 
特有 的 功能 和 性 质 ， 描 述 了 Flink 技术 在 爱立信 公司 的 应 用 情况 。Kafka 技术 则 侧重 于 功 
能 和 应 用 场景 的 介绍 。 本 章 作 为 前 述 内容 的 补充 ， 能 够 使 读者 对 大 数据 处 理 技术 有 一 个 
全 面 的 了 解 和 掌握 。 


~ 
俩 关键 术语 
有 


(1) 属 性 关系 (2) 底 层 存 储 (3) 原 生 图 处 理 (4) 容 错 机 制 
(5) 序 列 化 工具 (6) 设 计 构 架 (7) 应 用 架构 
习 “ 题 
1. 选择 是 
(1)Flink 的 核心 计算 构造 是 、)。 
A，Flink Runtime 技 行 引擎 B. DataStream API 
C, DataStream API D. DataSet API 


(2) 以 下 不 属于 下 link 的 特性 的 是 (。 ，)。 
A, 统一 的 批 处 理 与 流 处 理 系统 B 高 吞吐 功能 


C. 定制 的 序列 化 工具 D. 容错 机 制 

(3) 属 性 记录 是 固定 大 小 的 ， 一 个 属性 记录 最 多 可 以 容纳 ( ) 个 属性 。 
A.2 了 3 
C.4 D. 5 


(4)Kafka 中 的 Topic 采用 分 区 存储 数据 ,一 般 分 区 数 要 ( )Broker 数 ， 从 而 保证 
各 分 区 Leader 能 够 均匀 地 分 布 到 各 个 Broker 节点 。 


A. 大 于 B. 小 于 
C 等 二 D. 不 等 于 
(5)Flink 本 质 上 使 用 ( 数据 流 ， 这 使 得 开发 人 员 可 以 分 析 持续 生成 且 永 远 不 结 
束 的 数据 。 
A. 容错 性 B. 完整 性 
C. 机 密 性 D. 实时 性 
(6) 以 下 哪 一 项 不 是 图 数据 库 的 应 用 场景 ?( ) 
A. 社交 网 络 B. 征 信 系统 


C. 实时 推荐 D. 有 容错 功能 的 场景 








2. 判断 题 

(1) 在 处 理 图 数据 时 ,其 内 部 存储 结构 往往 采用 邻接 矩阵 或 邻接 表 的 方式 。 
(2) 所 有 图 数据 库 使 用 的 都 是 原生 图 存储 。 

(3)Kafka 只 能 保证 一 个 分 区 内 消息 的 有 序 性 ， 在 不 同 的 分 区 之 间 则 无 法 保证 。 


(4)Kafka 通过 乱 序 读 写 磁盘 提供 了 可 以 和 内 存 随 机 读 写 相 匹敌 的 读 写 速 度 。 
(5)Flink 同时 支持 流 计算 和 批 处 理 。 

(6)Flink 以 固定 的 缓存 块 为 单位 进行 网 络 数 据 传输 。 

3, 简 答 题 

(1) 图 数据 库 有 哪些 优点 和 缺点 ? 

(2)Flink 技术 的 应 用 场景 有 哪些 ? 

(3)Flink 技术 如 何 实 现 批 处 理 与 流 处 理 系统 之 间 的 统一 ? 

(4) 简 述 Kafka 分 布 式 消息 队列 的 作用 。 

(5) 简 述 Kafka 的 主要 架构 。 
(6) 图 数据 库 原生 图 处 理 和 存储 是 如 何 实现 的 ?到 ) 


wy 本 i 


附录 
常用 中 英文 术语 对 照 表 


标记 说 明 : 

1. ( ) 表示 缩写 ， 如 : 

Abstract Syntax Tree (AST) ”抽象 语法 树 

2.， /表示 两 种 形式 都 可 以 ， 如 : 

Comma-Separated Values (CSV) “逗号 分 隔 值 /字符 分 隔 值 


A 


Abstract Syntax Tree (AST) ”抽象 语法 树 
administration 管理 

agent 代理 商 

Alternating Least Squares-(ALS) ”最 小 交替 二 乘法 
Amazon Simple Queue Service ”亚马逊 简单 队列 服务 
Amazon Web Services (AWS) ”亚马逊 云 计算 服务 
Application Master 应 用 程序 管理 员 

Application Program Interface (API) ”应 用 程序 编程 接口 
Availability Zone 可 用 区 


batch” 批 处 理 

Berkeley Data Analysis Stack (BDAS) ”伯克利 数据 分 析 栈 
block 块 

Block Access Layer 块 访问 层 

BlockReport 块 报告 

bucket 桶 

bug 漏洞 

Business Intelligence (BI) ”商务 智能 


cache 高 速 缓存 





center 中心 

Central Processing Unit (CPU) 中 央 处 理 器 

channel 通道 

client 客户 端 

combine 结合 

Command Line Interface (CL1) 市 令 行 接口 

Complex Event Processing (CEP) 复合 事件 处 理 
Compressor Service 压缩 机 服务 

complete 完成 

compute 函数 /计算 

Comma-Separated Values (CSV) ”逗号 分 隔 值 /字符 分 隔 值 
container 集装箱 

Container Launch Context (CLC) ”容器 启动 上 下 文 
Content Delivery Network (CDN) 内 容 分 发 网 络 
Continuous Computation 连续 计算 

core 核 

copy 复制 

Customer Relationship Management (CRM) ” 客户 关系 管理 


D 


date 数据 
Data Stream 数据 流 / 流 式 数据 
DataNode On-line Volume Management DataNode 在 线 卷 管理 
DBConnect 数据 库 连接 
dependency 依赖 
deployment ”部署 
Directed Acyclic Graph (DAG) 有 向 无 环 图 
Distributed File System (DFS) ”分 布 式 文件 系统 
Distributed SQL (DISQL) ”分 布 式 数据 分 析 语 言 
Discretized Stream (DStream) ”离散 流 
Dots Per Inch (DPI) ”每 英寸 点 数 
duration 间隔 
Dynamic Partition (DP) ”动态 分 区 

E 
Eclipse Public License (EPL) Eclipse 公共 许可 证 
Edge Locations 边缘 节点 


Elastic Block Storage (EBS) ” 块 级 存储 服务 
Elastic Compute Cloud (EC2) ”弹性 计算 云 











Elastic Load Balancing (ELB) ”弹性 均衡 器 

Elastic Map Reduce (EMR) ”弹性 映射 化 简 

event 事件 

execute 查询 

Extraction-Transformation-Loading (ETL) 抽取 -转换 -加 载 





了 
fetch 拉 取 
file 文件 
File Transfer Protocol (FTP) ”文件 传输 协议 
format 格式 

G 


Garbage Collector (GC) ”内 存 垃圾 收集 器 

General Packet Radio Service (GPRS) ”通用 无 线 分 组 业务 
Graph Database 图 数据 库 

grouping 分 组 

Global Infrastructure 全 局 基础 设施 

Global Positioning System (GPS) 。 全球 定 位 系统 

Google 谷歌 公司 

Google File System (GFS) ”谷歌 公司 开发 的 分 布 式 文件 系统 


H 


Hadoop Distributed File System (HDFS》 基于 Hadoop 的 分 布 式 文件 系统 
Heartbeat Message 心跳 消息 

Hibernate Query Language (HQL) Hibernate 查询 语言 

High Availability (HA) ”高 可 用 性 

Hyper Text Transport Protocol (HTTP) ” 超 文 本 传输 协议 


I 


Identity and Access Management (IAM) 存 取 管理 
Indexer 索引 器 

input 输入 

In-Sync Replicas (ISR) ”同步 副本 

Internet Technology (IT) 互联 网 技术 

Internet Data Center (IDC) 互联 网 数据 中 心 


了 


Java Database Connectivity (JDBC) Java 数据 库 连接 








JavaScript Object Notation (JSON) ”JS 对 象 简 说 
Java Virtual Machine (JVM) ”Java 虚拟 机 


K 


key 码 / 键 


length 长 度 
lineage ”血统 
locality ”位置 
Log Statistical Platform (LSP) ”日 志 分 析 平 台 


M 


Massively Parallel Processing (MPP) ”大 规模 并 行 处 理 
Message Queue 消息 队列 


N 
Namespace 名 称 空间 
narrow ”狭窄 的 
node 节点 

0 


On-Line Analytical Processing (OLAP) .联机 分 析 处 理 
On-Line Transaction Processing (OLTP)》 “联机 事务 处 理 
Open DataBase Connectivity (ODBC) ”开放 式 数据 库 连 接 
output 输出 





partition 分 区 
Policy Controller 策略 控制 器 

portal “门户 

Portable Operating System Interface (POSIX) ”可 移植 操作 系统 接口 
protocol 协议 


query 查询 


rack 机 架 











Rack-aware 机 架 感 知 

Really Simple Syndication (RSS) ”简易 信息 集合 

Redundant Arrays of Independent Disks (RAID) ”独立 磁盘 宛 余 陈列 
region 区 域 

RegionServer 区 域 服务 器 

Relational Database Service (RDS) 关系 型 数据 库 服 务 

Relational Database Management System (RDBMS) 关系 数据 库 管理 系统 
Remote Dictionary Server (Redis) ”远程 字典 服务 

Remote Procedure Call (RPC) ”远程 过 程 调用 

replication 复制 

Resilient Distributed Datasets (RDD) ”弹性 分 布 式 数 据 集 

Resouce Manager 资源 管理 

Round-Robin 轮转 调度 











sampling ”取样 

scheduler 调度 器 

schema 模式 

secondary 辅助 的 

server 服务 器 

Simple Message Transfer Protocol (SMTP) ”简单 邮件 传输 协议 
Simple Storage Service (《S3) 简单 存储 服务 

sink 汇集 

slide 滑动 

socket library、 套 接 字库 

Solid State Disk (SSD) ”固态 盘 

SOUTCe 源 

split 分 片 

Stage 阶段 

Static Partition (SP) ”静态 分 区 
Strategic Business Unit (SBU) ”战略 业务 单元 
Stream Processing 信息 流 处 理 

Structured Query Language (SQL) ”结构 化 查询 语言 
System of Record (SOR) ”记录 系统 





table 表 
text 文本 
Transmission Control Protocol (TCP) ”传输 控制 协议 








topology 拓扑 
tuple 元 组 


U 


Uniform Resource Locator (URL) ”统一 资源 定位 器 
User Behavior Tracking (UBT) 用 户 行为 数据 
User Data Protocol (UDP) ”用户 数 据 报 协 议 

User Define Function (UDF) 用户 自 定义 函数 


于 


value 价值 
variety 多 样 化 
velocity 速度 
Virtual Private Cloud 私有 云 
volume 量 / 卷 





Ww 


Web User Interface (WUI) ”Web 用 户 界面 
wide 宽阔 的 
window 窗口 


紧 


Yet Another Resource Negotiator (YARN) “ 另 一 个 资源 管理 器 
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6 7-301-12323-2 管理 人 实用 教程 
了 7-301-14306-3 电子 商务 法 
8 7-301-14313-1 数据 仓库 与 数据 控 
9 7-301-12350-8 电子 商务 模拟 与 实 
10 7-301-14455-8 ERP 原理 与 应 用 教程 
11 7-301-14080-2 电 商务 原理 及 应 用 
12 7-301-15212-6 理论 与 应 用 
13 7-301-15284-3 
14 7-301-15474-8 





与 数据 挖 


用 教程 














30.00 





22 34.00 
23 

24 7-301-1662 3 

25 7-301-17246-9 电 了 全 易 


















































































































务 教程 魏 厚 清 34.00 

程 虹 38.00 

本 汪 投 次 分 析 张 德 存 38.00 
37 数字 图 奉 国 和 30.00 
38 电子 商务 安 蔡 志 文 49.00 
39 7-301-28616-6 电 局 2 版) 郭 月 45.00 
40 7-301-22393-2 ERP 沙盘 模拟 教程 26.00 
41 移动 商务 理论 与 实践 43.00 
42 7-301-23071-8 电子 商务 项 目 教程 45.00 
43 7-301-29186-3 ERP 原理 及 应 用 (第 2 版 ) 49.00 
44 7-301-25277-2 商务 理论 与 实务 40.00 
45 7-301-23558-4 48.00 
46 7-301-25555-1 54.00 
47 7-301-27516-0 36.00 
48 7-301-28917-4 电子 商务 项 E 策划 45.00 
49 7-301-30323-8 互联 网 金融 42.00 


















回 
我 们 将 及 时 做 好 


必 信 。 客 户 服务 QQ 号 : 


全 方位 的 服务 -联系 方式 :010-62750667, 010-62767922， 





1292552107，17373900， 欢 迎 随时 咨询 。 





北京 大 学 出 版 社 本 科 电 气 信息 系列 实用 规划 教材 


序号 书 名 ] 书 s | 编著 者 ”| 定价 | 出 版 年 份 | 教 铺 及 获奖 情况 
物 联网 、 大 数据 

7-301-30665-9 王道 平 

7-301-31479-1 王道 平 

















39 2019 “| 电子 
39 2020 “| 电子 课件 /答案 
电子 课件 /答案 , 有 “多 
媒体 移动 交互 式 教材 ” 












2 _| 大 数据 处 理 








3 “| 物 联 网 概论 7-301-23473-0 38 2015 重印 
















4 _| 物 联网 概论 7-301-21439-8 42 2012 _ | 电子 课件 /答案 
a 本 7 2008| 
5 | 现代 通信 网 络 (第 2 版 ) 7-301-27831-4 | 赵 瑞 玉 胡 表 表 | 45 电子 课件 /答案 


第 3 次 重印 
42 | 2016 重印 | 电子 课件 / 答 

2014 重印 | 电子 课件 / 答 
电子 课件 
2013，2018 | 电子 课件 /视频 素材 , 宁 
第 5 次 重印 | 波 市 教学 成 果 奖 
2016 重印 
2013，2018 
第 4 次 重印 
32 | 2016 重印 





7-301-23705-2 许 暗 明 
7-301-22385-7 
7-301-22436-6 


7-301- 邬 春明 


赵 卡 刚 

ors | wm | 

沈 亚 强 将 敏 滩 
单片机 与 嵌入 式 


6 _ | 无 线 通 信和 原理 
物 联网 技术 开发 与 实践 
物 联网 技术 案例 教程 


9 “| 传感器 技术 及 应 用 电路 项 目 化 教程 


电磁 场 与 电 








案 
案 














































11 | 现代 交换 技术 (第 2 版 ) 












传感器 基础 (第 2 版 ) 
13 “| 通信 技术 实用 教程 
14 “| 物 联网 工程 应 用 与 实践 
传 感 与 检测 技术 及 应 用 





视频 
36 2015 “| 电子 课件 /习题 答案 








39 2015 “| 电子 课件 
电子 课件 /数字 资源 






















2015 重印 
2017 第 3 次 | ，_.， 
46 重印 电子 课件 /习题 答案 





电子 课件 






电子 课件 /答案 
电子 课件 /数字 资源 
电子 课件 /习题 答案 , 辽 


43 | 2016 重 印 | | 一 五 ”教材 


单片机 原理 与 应 用 技术 (第 2 版) 






5 | 单片机 原理 及 应 用 教程 (第 2 版 ) 













2017 第 7 次 
30 | 7 和 | 电子 课 人 
重印 
44 2012 “| 电子 课件 /答案 /素材 
34 2013 | 电子 课件 /程序 代码 


6 | 单片机 原理 与 应 用 及 C51 程序 设计 7-301-13676-8 








7 | 单片机 原理 与 应 用 及 其 
8 _ |MCS-51 单片机 原理 及 应 用 


指导 书 7-301-21058-1 


7-301-22882-1 











电子 课 人 
56 2019 a 










1 “| 物理 光学 理论 与 应 用 (第 3 版 ) 





















































育 本 科 国 
之 7-301-23639-0 36 2014 电子 课件 
3 术 基 础 7-301-22111-2 王丽娟 52 2014 重印 
4 _| 集 成 电路 版 图 设计 (第 2 版 ) 7-301-29691-2 - 42 2019 
和 
5 “| 新 能 源 与 分 布 式 发 电 技术 (第 2 版 ) | 7.301-27495.8 | 。 朱 永 强 全 于 加 市 精品 教 村 ， 北 
第 4 次 重印 | 。 | 二 五 ”教材 
6 | 太阳 能 电池 原理 与 应 用 7301-18672.5 | 新 瑞 乾 | 25 | 和 7， 和 中 | 电子 课件 
第 4 次 重印 
hh 新 能 明 技 术 7-301-23123-4 李 姿 景 33 2013 电子 课件 /答案 























































































































































































































序号 书 名 书号 编著 者 定价 | 出 版 年 份 | 教 辅 及 获奖 情况 
8 _ | 集成 电路 EDA 设计 一 仿真 与 版 图 实例 | 7-301-28721-7 陆 学 斌 36 2017 ”| 数字 资源 
基 础 课 
国有 2017 第 5 次 | 电子 课件 ， 山 东 省 第 二 
1 分 析 7-301-12179-5 6 红 38 
了 本 本 中 | 届 人 秀 教 有关 
2016 第 5 次 | 
2 | 运筹 学 (第 2 版 ) 7-301-18860-6 | 吴 亚 丽 ， 张 俊 敏 | 28 汪汪 “| 电子 课件 /习题 答案 
3 _| 电 路 与 模拟 电子 技术 (第 2 版 ) 7-301-29654-7 张 绪 光 53 2018 _ | 电子 课件 /5 
4 _ | 微机 原理 及 接口 技术 7-301-16931-5 肖 洪 兵 32 2010 “| 电子 课件 
5 _ | 数字 电子 技术 7-301-16932-2 30 2010 ”| 电子 课件 
有 2018 第 4 次 | 
6 | 微机 原理 及 接口 技术 实验 指导 书 7-301-17614-6 T 林 李 升 | 22 重印 课件 
他 
7 “| 模拟 电子 技术 7-301-17700-6 | 张 绪 光 “ 刘 在 娥 | 36 人 “| 电子 课件 /习题 答案 
张 玮 张 莉 课件 /答案 ,山东 t 
» I 7-301-31278-0 4 2020 和 
投机 人民 张 绪 光 五 ”教材 修订 版 
9 | 电路 分 析 基 础 7-301-20505-1 吴 舒 杖 38 2012 _ | 电子 课件 /5 
i 2017 第 3 次 | 电子 课件 /答案 , 河南 省 
a y 
10 | 数字 电子 技术 49 站 | 下 二 二 村 
2019 第 3 次 | ，-， 
11 | 模拟 电子 与 数字 地 名 明 48 aa “| 电子 课件 
12 | 电路 与 模拟 电子 技术 实验 指导 书 蜂 26 2012 | 部 分 课件 
13 | 电子 电路 基 与 课程 设计 36 2013 | 部 分 课件 
14 | 电文 化 一 电气 信息 学 科 概论 | 7-301-22484-7 | 30 2013 
第 3 次 | 电子 课件 答案 其 他 过 
15 | 实用 数字 电子 技术 钱 0 2019 第 3 多 | 电子 课件 /答案 /其 他 素 
重印 _ | 材 
16 | 模拟 电子 技术 习题 精 和 30 | 2013 | 电子 课件 
17 | 电工 电子 基础 计 指 32 | 2016 重印 
2016 第 3 次 
18 | 电子 技术 测 良 | 
重印 
2019 第 3 次 
19 | 电工 技术 46 6 | 电子 识 伯 /习题 知 打 
第 4 次 
重印 
21 器 原理 及 应 用 42 2014 
潜 拟 电子 技术 基 而 wry 
22 pe J 指导 与 习题 | 7.301-25507.0 | 李 大 军 店 颖 | 32 2015 | 电子 课件 /习题 答案 
让 介 T 
23_ | 电工 教程 (第 2 版 ) 7-301-25343-4 27 2015 
24_ | 微机 原理 及 接口 技术 7-301-26063-0 42 2015 | 电子 识 
25 _| 简 明 电 路 分 析 7-301-26062-3 48 2015 | 电子 衣 
26 | 微机 原理 及 接口 技术 (第 2 版 ) 7-301-26512-3 段 中 兴 | 49 | 汪 的 维 码 数 字 资 源 
27_ | 电子 技术 综合 应 用 7-301-27900-7 林 祝 亮 | 37 2017 维 码 数字 资 
28_ | 电子 技术 专业 教学 法 7-301-28329-5 朱伟 玲 | 36 2017 维 码 数字 
F 术 专 业 课程 开发 与 教学 
29 | 电 了 2 技术 专业 课程 开发 与 教学 | 7.301.28544 2 万 烛 | 38 2017 维 码 数字 资源 
项 目 设计 
电子 、 
2018 第 10 | 电子 课件 ， 中 国 大 学 
1 |DSP 技术 及 应 用 7-301-10759-1 | 吴 冬 梅 ” 张 玉 杰 | 26 ”次 重印 版 社 图 书 奖 首届 优秀 教 
估量 | 
2 | 电子 工艺 实习 (第 2 版 ) 7-301-30080-0 周 春 阳 35 2019 
a 2019 第 10 中 国 大 学 出 
3 ”| 电子 工艺 学 教程 7-301-10744-7 | 张 立 毅 王 华 硅 | 45 . 
ee 0 次 重印 | 版 社 图 书 奖 首届 优秀 孝 






































































































































































































序号 书 名 书号 编著 者 定价 | 出 版 年 份 | 教 辅 及 获奖 情况 
材 奖 一 等 奖 
4 | 信号 与 系统 7-301-10761-4 | 华 容 隋 晓 红 | 33 1 次 电子 课件 
电子 课件 / 
5 | 信息 与 通信 工程 专业 英语 (第 2 版 ) | 7.301-19318-1 | 间 定 定 。 李 明明 | 32 | 次 ne 
教材 
6 _ | 高 频 电 子 线路 (第 2 版 ) 7-301-16520-1 | 宋 树 祥 _ 周 冬 梅 | 35 | 2013 重印 | 电子 课件 /习题 答案 
2019 第 16| 
7 |MATLAB 基础 及 其 应 用 教程 7-301-11442-1 | 周 开 利 邓 春 晖 | 39 次 重印 电子 课件 
2018 第 3 次 
8 “| 通信 原理 7-301-12178-8 | 隋 晓 红 ” 钟 晓 玲 | 32 重印 电子 课件 
9 “| 数字 信号 处 理 7-301-16076-3 | 王 震 宇 ” 张 培 珍 4 次 电子 课件 /答案 /素材 
10 | 光纤 通信 (第 2 版 ) 7-301-29106-1 汉 进 玫 电子 课件 /习题 答案 
11_ | 数字 信号 处 理 7-301-17986-4 王 玉 德 电子 课件 /答案 /素材 
12 | 电子 线路 CAD 电子 课件 
13 |MATLAB 基础 及 应 用 电子 课件 /答案 /素材 
14 | 现代 电子 系统 设计 教程 (第 2 版 ) 电子 课件 /习题 答案 
15 | 信号 与 系统 (第 2 版 ) 电子 课件 
16 |MATLAB 基础 与 应 用 教 各 电子 课件 /答案 
17 “| 微波 技术 基础 及 其 应 用 84 李 49 2013 下放 证 作 汪 和 二 全 
充 材料 等 
18 | 网 络 系统 分 析 与 设计 39 | 2012 | 电子 课件 
19 |psP 技术 及 应 用 苹 胜 9 | 2013 | 电子 课件 答案 
20 | 通信 原理 实验 与 课程 设计 34 | 2015 | 电子 课件 
21 | 信号 与 系统 38 | 2015 重 印 | 电 
22 | 信号 与 线性 3 | 203 上 
23 | 信号 分 析 与 处 理 39 | 203 上 a 
24 ”|MATLAB 基础 及 实验 教程 36 ”| 2016 重印 | 电子 课件 /答案 
25 俞 一 彪 45 2015 素材 /答案 
26_|EDA 技术 及 数 包 明 55 2015 
27_ | 算法 设计 、 分 析 与 应 用 教程 7-301-24352-7 李 文 书 49 2014 
28_|Android 开发 工程 师 案例 教程 7-301-24469-2 倪 红 军 48 2014 
29_|ERP 原理 及 应 用 《第 2 版? 7-301-29186-3 朱 49 2018 “| 电子 课件 /答案 
30_ | 综合 电 计 与 实践 7-301-25509-4 | 武 林 陈 希 | 32 2015 
31_ | 高 频 电子 技术 7-301-25508-7 赵 玉 刚 29 2015 _ | 电子 课件 
32 | 信息 与 通信 专业 英语 7-301-25506-3 刘 小 佳 29 2015 “| 电子 课件 
33_ | 信号 与 7-301-25984-9 张 建 奇 45 2015 | 电子 课件 
34_ | 数字 图 像 处 理 及 应 用 7-301-26112-5 张 36 2015 | 电子 课件 /习题 答案 
35 ”|Photoshop CC 案例 教程 (第 3 版 ) 7-301-27421-7 李 建 芳 49 2016 
36_ | 激光 技术 与 光纤 通信 实验 7-301-26609-0 | 周建华 兰 岚 | 28 2015 ”| 数字 资源 
37_|Java 高 级 开发 技术 大 学 教程 7-301-27353-1 陈 沛 48 2016 “| 电子 课件 /数字 
38_|VHDL 数字 系统 设计 与 应 用 7-301-27267-1 卉 李 冰 | 42 2016 | 数字 资 六 
39 | 光电 技术 应 用 7-301-28597-8 强 _ 沈 建国 | 30 2017 ”| 数字 资 
自动 化 、 电 气 
1 _ | 自动 控制 原理 7-301-22386-4 佟 威 30 2013 ”| 电子 课件 /答案 
2 | 自动 控制 原理 7-301-22936-1 邢 春 芳 39 | 2016 重 印 
















































序号 书号 编著 者 定价 | 出 版 年 份 | 教 辅 及 获奖 情况 
3 | 自动 控 7-301-22448-9 谭 功 全 44 2013 
2017 第 4 次 | 
4 | 自动 控制 原理 7-301-22112-9 许 丽 佳 30 ss 
5 _ | 自动 控制 原理 (第 2 版) 7-301-28728-6 村 45 电子 课件 /数字 
课件 /素材 ， 国 t 
现代 控制 理论 基础 (第 2 版 ) -301-31279- 卫 媛 椒 等 202 
6 “| 现代 控制 理论 基础 (第 2 版 7-301-31279-7 伐 媛 彬 等 49 2020 五 ”规划 教材 修订 版 
i i 2017 第 3 次 | ，_ 
7 | 计算 机 控制 系统 (第 2 版 ) 7-301-23271-2 徐 文 尚 48 重印 电子 课件 /答案 
本 2019 第 4 次 | _.， 
8 | 电力 系统 继 电 保护 (第 2 版 ) 7-301-21366-7 马 永 翔 46 重印 电子 课件 /习题 答案 
2014，2016 
9 “| 电气 控制 技术 (第 2 版 ) 7-301-24933-8 | 韩 顺 杰 ” 吕 树 清 | 28 重印 电子 课件 
要 2014，2017| 
10 | 自动 化 专业 英语 (第 2 版 ) 7-301-25091-4 | 李 国 厚 王 春 阳 | 46 重印 电子 课件 /参考 译文 


1 | 电力 电子 技术 及 应 用 2008 | 电子 课件 


六 电压 技术 (第 2 版 ) 马 永 翔 





1 2016 | 电子 课件 /习题 答案 
13 | 控制 电机 与 特种 电机 及 其 控制 系统 “| 7-301-18260-4 | 孙 冠 群 _ 于 少 如 | 42 | 2011 | 电子 课件 /习题 答案 


14 | 供 配 电 技术 2012 | 电子 课件 /习题 答案 

15_|pLC 技术 与 应 用 (西门 子 版 ) 2013 | 电子 课 人 

16_| 电 机 、 拖 动 与 控制 2013 | 电子 课件 /答案 

17_ | 电气 信 息 工程 专业 英语 7-301-22920-0 2013 ”| 电子 课件 /译文 

电子 课件 , 2014 年 中 国 
2013，2019 | 电子 教育 学 会 “全 国电 
第 4 次 重印 | 子 信息 类 优秀 教材 ” 


等 
和 










18 “| 集散 控制 系统 (第 2 版 ) 








2014，2019 

第 3 次 重印 
2014，2019 
第 3 次 重印 


19 | 工控 组 态 软件 及 应 用 电子 课件 /答案 


20 | 发 电厂 变 电 所 电气 部 分 (第 2 版 ) 电子 课件 /答案 































21_ | 自动 控制 原 教程 2015 
电子 课件 /辽宁 省 “十 
2 | 自动 控制 原理 (第 2 版 2 
22 | 自动 控制 原理 (第 2 版 ) 015 五 * 教材 
23_ | 电机 与 电力 电子 技术 2015 | 电子 课件 "答案 
24_ | 虚拟 仪器 技术 及 其 应 用 7-301-27133-9 鹿 远 江 45 2016 
25_ | 智能 仪表 技术 7-301-28790-3 2017 维 码 资源 









原 如 电子 课件 、 电 子 样 章 、 习 题 
方 微 信 ( 微 信号 : pup6book)， 随 时 查询 专 


青 扫 下 面 的 二 维 码 ， 关 注 :| 
目录 、 内 容 简介 等 信息 ， 并 可 在 线 申请 纸 质 











感谢 您 使 用 我 们 的 教材 , 欢迎 您 随时 与 我 们 联系 , 我 们 将 及 时 做 好 全 方位 的 服务 。 联 系 方式 : 010-62750667, pup6_czq@163.com, 
pup_6@163.com， 欢 迎 来 电 来 信 。 客 户 服务 QQ 号 : 1292552107， 欢 迎 随 时 咨询 。 








